Maj 29, 2023

Google je naučil AI Model Flamingo pisati opise za YouTube videoposnetke

by Damir Yalalov

Objavljeno: 29. maj 2023 ob 2 Posodobljeno: 00. maj 29 ob 2023

by Karolina Gaszcz

Urejeno in preverjeno: 29. maj 2023 ob 2

Na kratko

Flamingo s samodejnim ustvarjanjem opisov rešuje problem kratkih videoposnetkov, ki jih je težko najti z iskanjem.

Google DeepMind, raziskovalni laboratorij AI, ima razvili vizualni jezikovni model, imenovan Flamingo, ki lahko piše opise za kratke videoposnetke na YouTubu. Težava, s katero se ukvarja Flamingo, je, da je kratke videoposnetke pogosto težko najti z iskanjem zaradi pomanjkanja potrebnih informacij v opisu. Model Flamingo rešuje to težavo s samodejnim generiranjem besedil za milijone kratkih video posnetkov na straneh za gostovanje videoposnetkov, ki se uporabljajo "v zakulisju" za enostavno iskanje. Čeprav avtorji videa ne bodo videli metapodatkov, gledalcem pomagajo pri iskanju in krmarjenju po kratkih filmih. Trenutno Flamingo dela na novih posnetkih in obdeluje starejše videoposnetke, ki so že dolgo naloženi na YouTube.

Google je naučil AI Model Flamingo pisati opise za YouTube videoposnetke — deepmind.com

V preteklosti je Google predstavil algoritem, ki ljudem omogoča iskanje informacij v videoposnetkih z iskalno vrstico. Pred kratkim je TwelveLabs od vlagateljev zbral 12 milijonov dolarjev za podoben razvoj. Ta orodja ustvarjajo nove priložnosti za video ustvarjalci vsebin povečati njihov doseg in prepoznavnost. Z uporabo umetne inteligence za izboljšanje in poenostavitev postopka iskanja in odkrivanja kratke vsebine DeepMind in podobna zagonska podjetja revolucionirajo video pretakanje storitev. Prispevajo k razvoju inteligentnejših in učinkovitejših iskalnih tehnologij, s katerimi gledalci še lažje najdejo vsebino, ki jih resnično zanima.

Umetna inteligenca igra pomembno vlogo pri nadgradnji iskalnih tehnologij. Z uporabo umetne inteligence lahko model Flamingo skenira in serializira vsebino ter ustvari besedila, ki povzemajo vsebino in uporabnikom pomagajo pri navigaciji. Model Flamingo uporablja globoke nevronske mreže za ustvarjanje besedilnih opisov video posnetka na podlagi zvočne in vizualne vsebine videa. Zajame lahko slušne in vizualne komponente vsebine kratke oblike in jih pretvori v povzetek, ki ga uporabniki enostavno iščejo in dostopajo do njega.

Uporaba umetne inteligence lahko pomaga pri prepoznavanju pomembnih informacij za uporabnike, ki bi jih lahko ustvarjalci zgrešili pri ročnem dodajanju opisov. Časovno potratno prizadevanje za ročni zajem vsake podrobnosti ni vedno praktično, zlasti ob stalnem pretoku kratkih video vsebin, naloženih na platforme, kot je YouTube. To lahko privede do zmede in frustracij uporabnikov pri iskanju določene kratke vsebine. Z uporabo vizualnih jezikovnih modelov, kot je Flamingo, pa je mogoče metapodatke samodejno ustvariti, da zagotovijo povzetek za enostaven dostop, s čimer prihranijo čas in naredijo postopek iskanja učinkovitejši in natančnejši.

Flamingo postavlja nove najsodobnejše vizualne jezikovne modele za odprte naloge

Najpomembnejše podrobnosti so uvedba Flaminga, enotnega modela vizualnega jezika (VLM), ki postavlja novo stanje tehnike v nekajkratnem učenju širokega nabora odprtih večmodalnih nalog. Flamingo je enotni vizualni jezikovni model (VLM), ki redefineskončno učenje v širokem naboru odprtih multimodalnih dejavnosti. Prejema a poziv sestavljen iz prepletenih slik, videoposnetkov in besedila kot vhoda in izhoda povezanega jezika. Vizualni in besedilni vmesnik Flaminga, kot pri velikih jezikovnih modelih (LLM), lahko vodi model k doseganju multimodalnega cilja. Modelu je mogoče zastaviti vprašanje s svežo sliko ali videoposnetkom in nato sestaviti odgovor na podlagi nekaj primerov parov vizualnih vnosov in pričakovanih besedilnih odgovorov, sestavljenih v Flamingovem pozivu.

Flamingo je vizualni jezikovni model, ki združuje velike jezikovne modele z zmogljivimi vizualnimi predstavitvami in se usposablja na mešanici komplementarnih obsežnih multimodalnih podatkov, ki prihajajo samo iz spleta, brez uporabe kakršnih koli podatkov, označenih za namene strojnega učenja. Prekaša vse dosedanje pristope učenja v nekaj korakih, ko ima samo štiri primere na nalogo, in prekaša metode, ki so natančno prilagojene in optimizirane za vsako nalogo neodvisno ter uporabljajo več vrst velikosti več podatkov, specifičnih za nalogo. Preizkusil je tudi kvalitativne zmožnosti modela, ki presegajo trenutna merila uspešnosti, na primer dodajanje napisov slikam, povezanim s spolom in barvo kože, ter izvajanje ustvarjenih napisov prek Googlovega Perspective API-ja, ki ocenjuje toksičnost besedila. Flamingo omogoča učinkovito sprotno prilagajanje tem primerom in drugim nalogam brez spreminjanja modela ter demonstrira pripravljene zmožnosti multimodalnega dialoga.

Flamingo je družina modelov za splošne namene, ki jih je mogoče uporabiti za naloge razumevanja slik in videa z minimalnimi primeri za posamezne naloge. Je učinkovita družina modelov za splošne namene, ki jih je mogoče uporabiti za naloge razumevanja slik in videa z minimalnimi primeri, specifičnimi za naloge. Zmožnosti Flaminga utirajo pot k bogatim interakcijam z naučenimi vizualnimi jezikovnimi modeli, ki lahko omogočijo boljšo interpretabilnost in vznemirljive nove aplikacije, kot je vizualni pomočnik.

Preberite več o AI:

Tags:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.

več člankov

Damir Yalalov