Novinky Technika
29

Google naučil AI model Flamingo psát popisy pro videa na YouTube

Stručně

Flamingo řeší problém, kdy je obtížné najít krátká videa pomocí vyhledávání, automatickým vytvářením popisů.

Google DeepMind, výzkumná laboratoř AI, má rozvinutý vizuální jazykový model s názvem Flamingo schopný psát popisy pro krátká videa na YouTube. Problém, který Flamingo řeší, je ten, že krátká videa je často obtížné najít pomocí vyhledávání kvůli nedostatku potřebných informací v popisu. Model Flamingo tento problém řeší automatickým generováním textů pro miliony krátkých videoklipů na webech pro hostování videa, které se používají „v zákulisí“ pro snadné vyhledávání. Ačkoli autoři videa neuvidí metadata, pomáhá to divákům najít a procházet šortky. V současné době Flamingo již delší dobu pracuje na nových klipech a zpracovává starší videa nahraná na YouTube.

Google naučil AI model Flamingo psát popisy pro videa na YouTube
deepmind.com

V minulosti Google představil algoritmus, který lidem umožňuje vyhledávat informace ve videích pomocí vyhledávacího pole. Nedávno společnost TwelveLabs získala od investorů 12 milionů dolarů na podobný vývoj. Tyto nástroje vytvářejí nové příležitosti pro video tvůrcům obsahu zvýšit jejich dosah a viditelnost. Využitím umělé inteligence ke zlepšení a zjednodušení procesu vyhledávání a objevování krátkého obsahu přináší DeepMind a podobné startupy revoluci ve videu. streamingových služeb. Přispívají k vývoji inteligentnějších a účinnějších vyhledávacích technologií, díky nimž je pro diváky ještě jednodušší najít obsah, který je skutečně zajímá.

Umělá inteligence hraje významnou roli při modernizaci vyhledávacích technologií. Využitím umělé inteligence může model Flamingo skenovat a serializovat obsah a generovat texty, které shrnují obsah, aby uživatelům usnadnily navigaci. Model Flamingo využívá hluboké neuronové sítě ke generování textových popisů videoklipu na základě zvukového a vizuálního obsahu videa. Dokáže zachytit sluchové a vizuální složky krátkého obsahu a převést je do souhrnu, který uživatelé snadno vyhledávají a mají k němu přístup.

Použití umělé inteligence může pomoci identifikovat důležité informace pro uživatele, které mohou při ručním úsilí tvůrců při přidávání popisů uniknout. Časově náročné úsilí o ruční zachycení každého detailu není vždy praktické, zvláště při neustálém toku krátkého videoobsahu nahrávaného na platformy, jako je YouTube. To může vést ke zmatení a frustraci uživatelů při hledání konkrétního krátkého obsahu. S využitím vizuálních jazykových modelů, jako je Flamingo, však mohou být metadata automaticky generována, aby poskytla shrnutí pro snadný přístup, čímž ušetříte čas a zefektivníte a zpřesníte proces vyhledávání.

Flamingo nastavuje nové nejmodernější modely vizuálních jazyků pro otevřené úkoly

Nejdůležitějšími detaily jsou představení Flaminga, jediného modelu vizuálního jazyka (VLM), který nastavuje nový stav techniky v několikanásobném učení široké škály otevřených multimodálních úloh. Flamingo je model jednotného vizuálního jazyka (VLM), který redefineslouží k několikanásobnému učení napříč širokou škálou otevřených multimodálních aktivit. Přijímá a prompt skládající se z prokládaných obrázků, videí a textu jako vstupu a výstupu přidruženého jazyka. Vizuální a textové rozhraní Flaminga, jako u velkých jazykových modelů (LLM), může vést model k dosažení multimodálního cíle. Modelu lze položit otázku s novým obrázkem nebo videem a poté zkonstruovat odpověď pomocí několika příkladů párů vizuálních vstupů a očekávaných textových odpovědí složených ve výzvě Flaminga.

Flamingo je vizuální jazykový model, který spojuje velké jazykové modely s výkonnými vizuálními reprezentacemi a je trénován na směsi doplňkových rozsáhlých multimodálních dat pocházejících pouze z webu bez použití jakýchkoli dat anotovaných pro účely strojového učení. Poráží všechny předchozí přístupy k učení, když jsou uvedeny pouze čtyři příklady na úkol, a překonává metody, které jsou doladěny a optimalizovány pro každý úkol nezávisle a používají o několik řádů více dat specifických pro úkol. Testoval také kvalitativní schopnosti modelu nad rámec jeho současných benchmarků, jako je titulkování obrázků souvisejících s pohlavím a barvou pleti a spouštění generovaných titulků prostřednictvím Google Perspective API, které vyhodnocuje toxicitu textu. Flamingo umožňuje efektivně se přizpůsobovat těmto příkladům a dalším úkolům za běhu bez úpravy modelu a demonstruje okamžité možnosti multimodálního dialogu.

Flamingo je univerzální rodina modelů, které lze aplikovat na úlohy porozumění obrázkům a videu s minimem příkladů specifických pro daný úkol. Jedná se o efektivní a efektivní rodinu modelů pro všeobecné použití, které lze aplikovat na úlohy porozumění obrazu a videu s minimem příkladů specifických pro daný úkol. Schopnosti Flaminga dláždí cestu k bohatým interakcím s naučenými modely vizuálního jazyka, které umožňují lepší interpretaci a vzrušující nové aplikace, jako je vizuální asistent.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
Business Novinky Technika
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
3
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
Trhy Novinky Technika
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
3
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
Trhy Novinky Technika
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
3
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
Business Novinky Technika
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
3
CRYPTOMERIA LABS PTE. LTD.