Google l-a învățat pe modelul Flamingo AI să scrie descrieri pentru videoclipurile YouTube
Pe scurt
Flamingo rezolvă problema videoclipurilor scurte fiind greu de găsit prin căutare prin crearea automată a descrierilor.
Google DeepMind, laboratorul de cercetare AI, are dezvoltat un model de limbaj vizual numit Flamingo capabil să scrie descrieri pentru videoclipuri scurte de pe YouTube. Problema pe care o abordează Flamingo este că videoclipurile scurte sunt adesea dificil de găsit prin căutare din cauza lipsei informațiilor necesare în descriere. Modelul Flamingo rezolvă această problemă generând automat texte pentru milioane de clipuri video scurte pe site-uri de găzduire video, care sunt folosite „în culise” pentru a permite căutarea ușoară. Deși autorii videoclipurilor nu vor vedea metadatele, acestea îi ajută pe spectatori să găsească și să navigheze pe scurtmetraje. În prezent, Flamingo lucrează la noi clipuri și procesează videoclipuri mai vechi încărcate pe YouTube de mult timp.
În trecut, Google a introdus un algoritm care le permite oamenilor să caute informații în videoclipuri folosind bara de căutare. Recent, TwelveLabs a strâns 12 milioane de dolari de la investitori pentru o dezvoltare similară. Aceste instrumente creează noi oportunități pentru videoclipuri creatorii de conținut pentru a le crește raza și vizibilitatea. Folosind inteligența artificială pentru a îmbunătăți și simplifica procesul de căutare și descoperirea de conținut scurt, DeepMind și startup-urile similare revoluționează videoclipurile Servicii de streaming. Acestea contribuie la dezvoltarea unor tehnologii de căutare mai inteligente și mai eficiente, făcând și mai ușor pentru spectatori să găsească conținut care îi interesează cu adevărat.
Inteligența artificială joacă un rol semnificativ în modernizarea tehnologiilor de căutare. Folosind AI, modelul Flamingo poate scana și serializa conținutul și poate genera texte care rezumă conținutul pentru a ajuta utilizatorii să navigheze. Modelul Flamingo folosește rețele neuronale profunde pentru a genera descrieri textuale ale unui clip video pe baza conținutului audio și vizual al videoclipului. Poate capta componentele auditive și vizuale ale conținutului scurt și le poate transforma într-un rezumat ușor de căutat și de accesat de către utilizatori.
Utilizarea AI poate ajuta la identificarea informațiilor importante pentru utilizatori, care ar putea fi ratate în eforturile manuale ale creatorilor în timp ce adaugă descrieri. Efortul care necesită timp de a capta manual fiecare detaliu nu este întotdeauna practic, mai ales cu fluxul constant de conținut video sub formă scurtă încărcat pe platforme precum YouTube. Acest lucru poate duce la confuzie și frustrare a utilizatorilor atunci când caută un anumit conținut scurt. Cu toate acestea, odată cu utilizarea modelelor de limbaj vizual, cum ar fi Flamingo, metadatele pot fi generate automat pentru a oferi un rezumat pentru un acces ușor, economisind astfel timp și făcând procesul de căutare mai eficient și mai precis.
Flamingo stabilește noi modele de limbaj vizual de ultimă generație pentru sarcini deschise
Cele mai importante detalii sunt introducerea Flamingo, un singur model de limbaj vizual (VLM) care stabilește un nou stadiu al tehnicii în ceea ce privește învățarea în scurt timp pentru o gamă largă de sarcini multimodale deschise. Flamingo este un singur model de limbaj vizual (VLM) care redefieste o învățare rapidă într-o gamă largă de activități multimodale deschise. Primește un prompt constând din imagini intercalate, videoclipuri și text ca intrare și ieșire în limba asociată. Interfața vizuală și text a Flamingo, la fel ca cele ale modelelor mari de limbaj (LLM), poate conduce modelul spre realizarea unui obiectiv multimodal. Modelului i se poate pune o întrebare cu o imagine sau un videoclip proaspăt și apoi construi un răspuns, având câteva exemple de perechi de intrări vizuale și răspunsuri de text așteptate compuse în promptul lui Flamingo.
Flamingo este un model de limbaj vizual care combină modele de limbaj mari cu reprezentări vizuale puternice și este antrenat pe un amestec de date multimodale complementare la scară largă care provin numai de pe web, fără a utiliza date adnotate în scopuri de învățare automată. Depășește toate abordările anterioare de învățare cu câteva inregistrări atunci când sunt oferite doar patru exemple per sarcină și depășește metodele care sunt reglate fin și optimizate pentru fiecare sarcină în mod independent și utilizează mai multe ordine de mărime mai multe date specifice sarcinii. De asemenea, a testat capabilitățile calitative ale modelului dincolo de standardele actuale, cum ar fi subtitrărea imaginilor legate de sex și culoarea pielii și rularea subtitrărilor generate prin API-ul Google Perspective, care evaluează toxicitatea textului. Flamingo face posibilă adaptarea eficientă la aceste exemple și la alte sarcini din mers, fără a modifica modelul și demonstrează capabilități de dialog multimodal ieșite din cutie.
Flamingo este o familie de modele de uz general care poate fi aplicată la sarcini de înțelegere a imaginilor și a videoclipurilor cu exemple minime specifice sarcinilor. Este o familie de modele de uz general eficientă și eficientă care poate fi aplicată sarcinilor de înțelegere a imaginilor și a videoclipurilor cu exemple minime specifice sarcinilor. Abilitățile lui Flamingo deschid calea către interacțiuni bogate cu modele de limbaj vizual învățate care pot permite o mai bună interpretare și aplicații noi interesante, cum ar fi un asistent vizual.
Citiți mai multe despre AI:
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.
Mai multe articoleDamir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.