Buletin de stiri Tehnologia
29 Mai, 2023

Google l-a învățat pe modelul Flamingo AI să scrie descrieri pentru videoclipurile YouTube

Pe scurt

Flamingo rezolvă problema videoclipurilor scurte fiind greu de găsit prin căutare prin crearea automată a descrierilor.

Google DeepMind, laboratorul de cercetare AI, are dezvoltat un model de limbaj vizual numit Flamingo capabil să scrie descrieri pentru videoclipuri scurte de pe YouTube. Problema pe care o abordează Flamingo este că videoclipurile scurte sunt adesea dificil de găsit prin căutare din cauza lipsei informațiilor necesare în descriere. Modelul Flamingo rezolvă această problemă generând automat texte pentru milioane de clipuri video scurte pe site-uri de găzduire video, care sunt folosite „în culise” pentru a permite căutarea ușoară. Deși autorii videoclipurilor nu vor vedea metadatele, acestea îi ajută pe spectatori să găsească și să navigheze pe scurtmetraje. În prezent, Flamingo lucrează la noi clipuri și procesează videoclipuri mai vechi încărcate pe YouTube de mult timp.

Google l-a învățat pe modelul Flamingo AI să scrie descrieri pentru videoclipurile YouTube
deepmind.com

În trecut, Google a introdus un algoritm care le permite oamenilor să caute informații în videoclipuri folosind bara de căutare. Recent, TwelveLabs a strâns 12 milioane de dolari de la investitori pentru o dezvoltare similară. Aceste instrumente creează noi oportunități pentru videoclipuri creatorii de conținut pentru a le crește raza și vizibilitatea. Folosind inteligența artificială pentru a îmbunătăți și simplifica procesul de căutare și descoperirea de conținut scurt, DeepMind și startup-urile similare revoluționează videoclipurile Servicii de streaming. Acestea contribuie la dezvoltarea unor tehnologii de căutare mai inteligente și mai eficiente, făcând și mai ușor pentru spectatori să găsească conținut care îi interesează cu adevărat.

Inteligența artificială joacă un rol semnificativ în modernizarea tehnologiilor de căutare. Folosind AI, modelul Flamingo poate scana și serializa conținutul și poate genera texte care rezumă conținutul pentru a ajuta utilizatorii să navigheze. Modelul Flamingo folosește rețele neuronale profunde pentru a genera descrieri textuale ale unui clip video pe baza conținutului audio și vizual al videoclipului. Poate capta componentele auditive și vizuale ale conținutului scurt și le poate transforma într-un rezumat ușor de căutat și de accesat de către utilizatori.

Utilizarea AI poate ajuta la identificarea informațiilor importante pentru utilizatori, care ar putea fi ratate în eforturile manuale ale creatorilor în timp ce adaugă descrieri. Efortul care necesită timp de a capta manual fiecare detaliu nu este întotdeauna practic, mai ales cu fluxul constant de conținut video sub formă scurtă încărcat pe platforme precum YouTube. Acest lucru poate duce la confuzie și frustrare a utilizatorilor atunci când caută un anumit conținut scurt. Cu toate acestea, odată cu utilizarea modelelor de limbaj vizual, cum ar fi Flamingo, metadatele pot fi generate automat pentru a oferi un rezumat pentru un acces ușor, economisind astfel timp și făcând procesul de căutare mai eficient și mai precis.

Flamingo stabilește noi modele de limbaj vizual de ultimă generație pentru sarcini deschise

Cele mai importante detalii sunt introducerea Flamingo, un singur model de limbaj vizual (VLM) care stabilește un nou stadiu al tehnicii în ceea ce privește învățarea în scurt timp pentru o gamă largă de sarcini multimodale deschise. Flamingo este un singur model de limbaj vizual (VLM) care redefieste o învățare rapidă într-o gamă largă de activități multimodale deschise. Primește un prompt constând din imagini intercalate, videoclipuri și text ca intrare și ieșire în limba asociată. Interfața vizuală și text a Flamingo, la fel ca cele ale modelelor mari de limbaj (LLM), poate conduce modelul spre realizarea unui obiectiv multimodal. Modelului i se poate pune o întrebare cu o imagine sau un videoclip proaspăt și apoi construi un răspuns, având câteva exemple de perechi de intrări vizuale și răspunsuri de text așteptate compuse în promptul lui Flamingo.

Flamingo este un model de limbaj vizual care combină modele de limbaj mari cu reprezentări vizuale puternice și este antrenat pe un amestec de date multimodale complementare la scară largă care provin numai de pe web, fără a utiliza date adnotate în scopuri de învățare automată. Depășește toate abordările anterioare de învățare cu câteva inregistrări atunci când sunt oferite doar patru exemple per sarcină și depășește metodele care sunt reglate fin și optimizate pentru fiecare sarcină în mod independent și utilizează mai multe ordine de mărime mai multe date specifice sarcinii. De asemenea, a testat capabilitățile calitative ale modelului dincolo de standardele actuale, cum ar fi subtitrărea imaginilor legate de sex și culoarea pielii și rularea subtitrărilor generate prin API-ul Google Perspective, care evaluează toxicitatea textului. Flamingo face posibilă adaptarea eficientă la aceste exemple și la alte sarcini din mers, fără a modifica modelul și demonstrează capabilități de dialog multimodal ieșite din cutie.

Flamingo este o familie de modele de uz general care poate fi aplicată la sarcini de înțelegere a imaginilor și a videoclipurilor cu exemple minime specifice sarcinilor. Este o familie de modele de uz general eficientă și eficientă care poate fi aplicată sarcinilor de înțelegere a imaginilor și a videoclipurilor cu exemple minime specifice sarcinilor. Abilitățile lui Flamingo deschid calea către interacțiuni bogate cu modele de limbaj vizual învățate care pot permite o mai bună interpretare și aplicații noi interesante, cum ar fi un asistent vizual.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Injective își unește forțele cu AltLayer pentru a aduce securitatea refacerii în EVM
Afaceri Buletin de stiri Tehnologia
Injective își unește forțele cu AltLayer pentru a aduce securitatea refacerii în EVM
3 Mai, 2024
Masa face echipă cu Teller pentru a introduce grupul de împrumuturi MASA, care permite împrumuturile USDC pe bază
pieţe Buletin de stiri Tehnologia
Masa face echipă cu Teller pentru a introduce grupul de împrumuturi MASA, care permite împrumuturile USDC pe bază
3 Mai, 2024
Velodrome lansează versiunea Beta a Superchain în săptămânile următoare și se extinde în blockchainurile OP Stack Layer 2
pieţe Buletin de stiri Tehnologia
Velodrome lansează versiunea Beta a Superchain în săptămânile următoare și se extinde în blockchainurile OP Stack Layer 2
3 Mai, 2024
CARV anunță parteneriat cu Aethir pentru a-și descentraliza stratul de date și a distribui recompense
Afaceri Buletin de stiri Tehnologia
CARV anunță parteneriat cu Aethir pentru a-și descentraliza stratul de date și a distribui recompense
3 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.