Novinová správa Technológia
Môže 29, 2023

Google naučil AI model Flamingo písať popisy pre videá YouTube

Stručne

Flamingo rieši problém s ťažkosťami pri hľadaní krátkych videí pomocou automatického vytvárania popisov.

Google DeepMind, výskumné laboratórium AI, má rozvinutý vizuálny jazykový model s názvom Flamingo schopný písať popisy pre krátke videá na YouTube. Problém, ktorý Flamingo rieši, je, že krátke videá je často ťažké nájsť pomocou vyhľadávania kvôli nedostatku potrebných informácií v popise. Model Flamingo tento problém rieši automatickým generovaním textov pre milióny krátkych videoklipov na stránkach s videohostingom, ktoré sa používajú „v zákulisí“ na uľahčenie vyhľadávania. Hoci autori videa neuvidia metadáta, pomáha to divákom nájsť a orientovať sa v šortkách. V súčasnosti Flamingo už dlhší čas pracuje na nových klipoch a spracováva staršie videá nahrané na YouTube.

Google naučil AI model Flamingo písať popisy pre videá YouTube
deepmind.com

V minulosti spoločnosť Google predstavila algoritmus, ktorý umožňuje ľuďom vyhľadávať informácie vo videách pomocou vyhľadávacieho panela. Nedávno spoločnosť TwelveLabs získala od investorov 12 miliónov dolárov na podobný vývoj. Tieto nástroje vytvárajú nové príležitosti pre video tvorcov obsahu zvýšiť ich dosah a viditeľnosť. Využitím AI na zlepšenie a zjednodušenie procesu vyhľadávania a objavovania krátkeho obsahu prinášajú DeepMind a podobné startupy revolúciu vo videu. služby streamingu. Prispievajú k vývoju inteligentnejších a efektívnejších technológií vyhľadávania, vďaka čomu môžu diváci ešte jednoduchšie nájsť obsah, ktorý ich skutočne zaujíma.

Umelá inteligencia zohráva významnú úlohu pri modernizácii vyhľadávacích technológií. Využitím AI môže model Flamingo skenovať a serializovať obsah a generovať texty, ktoré sumarizujú obsah, aby pomohli používateľom pri navigácii. Model Flamingo využíva hlboké neurónové siete na generovanie textových popisov videoklipu na základe zvukového a vizuálneho obsahu videa. Dokáže zachytiť sluchové a vizuálne zložky krátkeho obsahu a transformovať ich do súhrnu, ktorý používatelia ľahko hľadajú a majú k nemu prístup.

Použitie AI môže pomôcť identifikovať dôležité informácie pre používateľov, ktoré môžu pri manuálnom úsilí tvorcov pri pridávaní popisov chýbať. Časovo náročné úsilie manuálne zachytiť každý detail nie je vždy praktické, najmä pri neustálom toku krátkeho videoobsahu nahrávaného na platformy ako YouTube. To môže viesť k zmätku a frustrácii používateľov pri hľadaní konkrétneho krátkeho obsahu. S použitím modelov vizuálneho jazyka, ako je Flamingo, sa však metadáta môžu automaticky generovať, aby poskytli súhrn pre ľahký prístup, čím sa ušetrí čas a proces vyhľadávania bude efektívnejší a presnejší.

Flamingo nastavuje nové, najmodernejšie modely vizuálnych jazykov pre otvorené úlohy

Najdôležitejšie detaily sú predstavenie Flaminga, jediného vizuálneho jazykového modelu (VLM), ktorý nastavuje nový stav v oblasti učenia sa niekoľkými pokusmi o širokej škále otvorených multimodálnych úloh. Flamingo je jednotný model vizuálneho jazyka (VLM), ktorý redefinie je niekoľkonásobné učenie v rámci širokej škály otvorených multimodálnych aktivít. Prijíma a prompt pozostávajúce z prekladaných obrázkov, videí a textu ako vstup a výstup v pridruženom jazyku. Vizuálne a textové rozhranie Flaminga, ako pri veľkých jazykových modeloch (LLM), môže viesť model k dosiahnutiu multimodálneho cieľa. Modelu je možné položiť otázku s novým obrázkom alebo videom a potom zostaviť odpoveď s niekoľkými príkladmi párov vizuálnych vstupov a očakávaných textových odpovedí zložených z Flamingovej výzvy.

Flamingo je vizuálny jazykový model, ktorý spája veľké jazykové modely s výkonnými vizuálnymi reprezentáciami a je trénovaný na zmesi komplementárnych rozsiahlych multimodálnych údajov pochádzajúcich iba z webu bez použitia akýchkoľvek údajov anotovaných na účely strojového učenia. Poráža všetky predchádzajúce prístupy k učeniu, keď sú uvedené len štyri príklady na úlohu, a prekonáva metódy, ktoré sú doladené a optimalizované pre každú úlohu nezávisle a používajú o niekoľko rádov viac údajov špecifických pre danú úlohu. Testoval tiež kvalitatívne možnosti modelu nad rámec jeho súčasných benchmarkov, ako je napríklad popisovanie obrázkov súvisiacich s pohlavím a farbou pleti a spúšťanie vygenerovaných titulkov prostredníctvom rozhrania Google Perspective API, ktoré vyhodnocuje toxicitu textu. Flamingo umožňuje efektívne sa prispôsobiť týmto príkladom a iným úlohám za chodu bez úpravy modelu a demonštruje hotové multimodálne dialógové možnosti.

Flamingo je univerzálna rodina modelov, ktoré možno použiť na úlohy porozumenia obrazu a videa s minimálnym počtom príkladov špecifických pre danú úlohu. Ide o efektívnu a efektívnu rodinu modelov na všeobecné použitie, ktoré možno použiť na úlohy porozumenia obrazu a videu s minimálnym počtom príkladov špecifických pre danú úlohu. Schopnosti Flaminga dláždia cestu k bohatým interakciám s naučenými modelmi vizuálneho jazyka, ktoré umožňujú lepšiu interpretáciu a vzrušujúce nové aplikácie, ako napríklad vizuálny asistent.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
firmy Novinová správa Technológia
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
Môže 3, 2024
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
trhy Novinová správa Technológia
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
Môže 3, 2024
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
trhy Novinová správa Technológia
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
Môže 3, 2024
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
firmy Novinová správa Technológia
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
Môže 3, 2024
CRYPTOMERIA LABS PTE. LTD.