Neka 29, 2023

Google je naučio AI model Flamingo pisati opise za YouTube videozapise

by Damir Yalalov

Objavljeno: 29. svibnja 2023. u 2:00 Ažurirano: 29. svibnja 2023. u 10:55

by Karolina Gaszcz

Uređeno i provjereno: 29. svibnja 2023. u 2:00

Ukratko

Flamingo rješava problem kratkih videozapisa koje je teško pronaći pretraživanjem automatskim stvaranjem opisa.

Google DeepMind, istraživački laboratorij AI, ima razvijen vizualni jezični model nazvan Flamingo koji može pisati opise za kratke videozapise na YouTubeu. Problem koji Flamingo rješava je taj što je kratke videozapise često teško locirati putem pretraživanja zbog nedostatka potrebnih informacija u opisu. Model Flamingo rješava ovaj problem automatskim generiranjem tekstova za milijune kratkih video isječaka na video hosting stranicama, koji se koriste "iza scene" kako bi se omogućilo jednostavno pretraživanje. Iako autori videozapisa neće vidjeti metapodatke, oni pomažu gledateljima da pronađu kratke filmove i da se kreću po njima. Trenutačno Flamingo već duže vrijeme radi na novim isječcima i obrađuje starije videozapise postavljene na YouTube.

Google je naučio AI model Flamingo pisati opise za YouTube videozapise — deepmind.com

U prošlosti je Google predstavio algoritam koji ljudima omogućuje traženje informacija unutar videozapisa pomoću trake za pretraživanje. Nedavno je TwelveLabs prikupio 12 milijuna dolara od investitora za sličan razvoj. Ovi alati stvaraju nove mogućnosti za video kreatori sadržaja kako bi povećali svoj doseg i vidljivost. Korištenjem umjetne inteligencije za poboljšanje i pojednostavljenje procesa pretraživanja i otkrivanja sadržaja kratkog formata, DeepMind i slični startupovi revolucionariziraju video Streaming usluge. Oni pridonose razvoju inteligentnijih i učinkovitijih tehnologija pretraživanja, čineći gledateljima još jednostavnijim pronalaženje sadržaja koji ih uistinu zanima.

Umjetna inteligencija igra značajnu ulogu u nadogradnji tehnologija pretraživanja. Korištenjem umjetne inteligencije, model Flamingo može skenirati i serijalizirati sadržaj i generirati tekstove koji sažimaju sadržaj kako bi korisnicima pomogli u navigaciji. Model Flamingo koristi duboke neuronske mreže za generiranje tekstualnih opisa video zapisa na temelju audio i vizualnog sadržaja videa. Može uhvatiti slušne i vizualne komponente sadržaja kratkog formata i transformirati ih u sažetak koji korisnici lako traže i pristupaju.

Korištenje umjetne inteligencije može pomoći u identificiranju važnih informacija za korisnike, koje bi mogle biti propuštene u ručnim naporima kreatora prilikom dodavanja opisa. Dugotrajan napor da se ručno uhvati svaki detalj nije uvijek praktičan, osobito uz stalni protok video sadržaja kratke forme koji se prenosi na platforme poput YouTubea. To može dovesti do zbunjenosti i frustracije korisnika prilikom traženja određenog sadržaja kratkog formata. Međutim, upotrebom vizualnih jezičnih modela, kao što je Flamingo, metapodaci se mogu automatski generirati kako bi pružili sažetak za lak pristup, čime se štedi vrijeme i proces pretraživanja čini učinkovitijim i preciznijim.

Flamingo postavlja nove najsuvremenije modele vizualnog jezika za zadatke otvorenog tipa

Najvažniji detalji su uvođenje Flaminga, jedinstvenog modela vizualnog jezika (VLM) koji postavlja novo stanje umjetnosti u kratkom učenju na širokom rasponu otvorenih multimodalnih zadataka. Flamingo je jedinstveni vizualni jezični model (VLM) koji redefineskraćeno učenje u širokom rasponu otvorenih multimodalnih aktivnosti. Prima a brz koji se sastoji od isprepletenih slika, videa i teksta kao ulaza i izlaza povezanog jezika. Flamingovo vizualno i tekstualno sučelje, poput onih velikih jezičnih modela (LLM), može voditi model prema postizanju multimodalnog cilja. Modelu se može postaviti pitanje sa svježom slikom ili videom, a zatim konstruirati odgovor, dajući nekoliko primjera parova vizualnih unosa i očekivanih tekstualnih odgovora sastavljenih u Flamingovom upitu.

Flamingo je vizualni jezični model koji spaja velike jezične modele sa snažnim vizualnim prikazima i trenira se na mješavini komplementarnih multimodalnih podataka velikih razmjera koji dolaze samo s weba bez upotrebe bilo kakvih podataka označenih u svrhu strojnog učenja. Pobjeđuje sve prethodne pristupe učenju u nekoliko pokušaja kada se daju samo četiri primjera po zadatku i nadmašuje metode koje su fino podešene i optimizirane za svaki zadatak neovisno i koriste više redova veličine više podataka specifičnih za zadatak. Također je testirao kvalitativne mogućnosti modela izvan njegovih trenutnih referentnih vrijednosti, kao što su opisi slika povezanih sa spolom i bojom kože i pokretanje njegovih generiranih opisa kroz Googleov Perspective API, koji procjenjuje toksičnost teksta. Flamingo omogućuje učinkovitu prilagodbu ovim primjerima i drugim zadacima u hodu bez modificiranja modela i demonstrira izvanredne mogućnosti multimodalnog dijaloga.

Flamingo je obitelj modela opće namjene koja se može primijeniti na zadatke razumijevanja slike i videa s minimalnim primjerima specifičnim za zadatak. To je djelotvorna i učinkovita obitelj modela opće namjene koja se može primijeniti na zadatke razumijevanja slike i videa s minimalnim primjerima specifičnim za zadatak. Flamingove sposobnosti utiru put prema bogatim interakcijama s naučenim modelima vizualnog jezika koji mogu omogućiti bolju interpretabilnost i uzbudljive nove aplikacije, poput vizualnog pomoćnika.

Pročitajte više o AI:

Oznake:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.

Više članaka

Damir Yalalov