Nyhetsrapport Teknologi
Maj 29, 2023

Google lärde AI Model Flamingo att skriva beskrivningar för YouTube-videor

I korthet

Flamingo löser problemet med att korta videor är svåra att hitta genom sökning genom att automatiskt skapa beskrivningar.

Google DeepMind, AI-forskningslaboratoriet, har utvecklade en visuell språkmodell kallad Flamingo som kan skriva beskrivningar för korta videor på YouTube. Problemet som Flamingo tar upp är att korta filmer ofta är svåra att hitta via sökning på grund av bristen på nödvändig information i beskrivningen. Flamingo-modellen löser detta problem genom att automatiskt generera texter för miljontals korta videoklipp på videohotellwebbplatser, som används "bakom kulisserna" för att möjliggöra enkel sökning. Även om videoförfattarna inte kommer att se metadata, hjälper det tittarna att hitta och navigera i kortfilmerna. För närvarande har Flamingo arbetat med nya klipp och bearbetat äldre videor som laddats upp på YouTube under lång tid.

Google lärde AI Model Flamingo att skriva beskrivningar för YouTube-videor
deepmind.com

Tidigare introducerade Google en algoritm som gör det möjligt för människor att söka efter information i videor med hjälp av sökfältet. Nyligen samlade TwelveLabs in 12 miljoner dollar från investerare för en liknande utveckling. Dessa verktyg skapar nya möjligheter för video innehållsskapare för att öka deras räckvidd och synlighet. Genom att utnyttja AI för att förbättra och förenkla sökprocessen och upptäckten av kortformat innehåll, revolutionerar DeepMind och liknande startups video strömmande tjänster. De bidrar till utvecklingen av mer intelligent och effektiv sökteknik, vilket gör det ännu enklare för tittarna att hitta innehåll som verkligen intresserar dem.

Artificiell intelligens spelar en viktig roll för att uppgradera sökteknik. Genom att utnyttja AI kan Flamingo-modellen skanna och serialisera innehållet och generera texter som sammanfattar innehållet för att hjälpa användare att navigera. Flamingomodellen använder djupa neurala nätverk för att generera textbeskrivningar av ett videoklipp baserat på videons ljud- och visuella innehåll. Den kan fånga de auditiva och visuella komponenterna i kortformat innehåll och omvandla dem till en sammanfattning som är lätt för användare att söka efter och komma åt.

Användningen av AI kan hjälpa till att identifiera viktig information för användarna, som kan missas i kreatörernas manuella ansträngningar när de lägger till beskrivningar. Den tidskrävande ansträngningen att manuellt fånga varje detalj är inte alltid praktiskt, särskilt med det ständiga flödet av kortformat videoinnehåll som laddas upp på plattformar som YouTube. Detta kan leda till användarförvirring och frustration när de söker efter specifikt kortformat innehåll. Men med användning av visuella språkmodeller, såsom Flamingo, kan metadata genereras automatiskt för att ge en sammanfattning för enkel åtkomst, vilket sparar tid och gör sökprocessen mer effektiv och korrekt.

Flamingo sätter nya toppmoderna visuella språkmodeller för öppna uppgifter

De viktigaste detaljerna är introduktionen av Flamingo, en enda visuell språkmodell (VLM) som sätter ett nytt toppmodernt inlärning på ett brett utbud av öppna multimodala uppgifter. Flamingo är en enda visuell språkmodell (VLM) som redefines få-shot lärande över ett brett utbud av öppna multimodala aktiviteter. Den får en snabb bestående av sammanflätade bilder, videor och text som inmatning och utmatning av det associerade språket. Flamingos visuella och textgränssnitt, som de för stora språkmodeller (LLM), kan leda modellen mot att uppnå ett multimodalt mål. Modellen kan ställas en fråga med en ny bild eller video och sedan konstruera ett svar, givet några exempelpar av visuella input och förväntade textsvar komponerade i Flamingos prompt.

Flamingo är en visuell språkmodell som smälter samman stora språkmodeller med kraftfulla visuella representationer och tränas på en blandning av kompletterande storskalig multimodal data som endast kommer från webben utan att använda någon data kommenterad för maskininlärningsändamål. Det överträffar alla tidigare inlärningsmetoder när det ges så få som fyra exempel per uppgift och överträffar metoder som är finjusterade och optimerade för varje uppgift oberoende och använder flera storleksordningar mer uppgiftsspecifika data. Den testade också modellens kvalitativa möjligheter utöver dess nuvarande riktmärken, såsom bildtexter relaterade till kön och hudfärg och kör dess genererade bildtexter genom Googles Perspective API, som utvärderar toxiciteten hos text. Flamingo gör det möjligt att på ett effektivt sätt anpassa sig till dessa exempel och andra uppgifter i farten utan att modifiera modellen och demonstrerar möjligheter till multimodala dialoger.

Flamingo är en allmän modellfamilj som kan användas för bild- och videoförståelseuppgifter med minimala uppgiftsspecifika exempel. Det är en effektiv och effektiv modellfamilj för allmänna ändamål som kan användas för bild- och videoförståelseuppgifter med minimala uppgiftsspecifika exempel. Flamingos förmågor banar väg för rika interaktioner med inlärda visuella språkmodeller som kan möjliggöra bättre tolkning och spännande nya applikationer, som en visuell assistent.

Läs mer om AI:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Institutionell aptit växer mot Bitcoin ETFs mitt i volatilitet

Avslöjande genom 13F-anmälningar avslöjar anmärkningsvärda institutionella investerare som sysslar med Bitcoin ETF:er, vilket understryker en växande acceptans av ...

Lär dig mer

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Injective går samman med AltLayer för att ge inEVM återupptagande säkerhet
Företag Nyhetsrapport Teknologi
Injective går samman med AltLayer för att ge inEVM återupptagande säkerhet
Maj 3, 2024
Masa samarbetar med Teller för att introducera MASA Lending Pool, möjliggör USDC-lån på basen
Marknader Nyhetsrapport Teknologi
Masa samarbetar med Teller för att introducera MASA Lending Pool, möjliggör USDC-lån på basen
Maj 3, 2024
Velodrome lanserar Superchain Beta-version under de kommande veckorna och expanderar över OP Stack Layer 2 Blockchains
Marknader Nyhetsrapport Teknologi
Velodrome lanserar Superchain Beta-version under de kommande veckorna och expanderar över OP Stack Layer 2 Blockchains
Maj 3, 2024
CARV tillkännager partnerskap med Aethir för att decentralisera sitt datalager och dela ut belöningar
Företag Nyhetsrapport Teknologi
CARV tillkännager partnerskap med Aethir för att decentralisera sitt datalager och dela ut belöningar
Maj 3, 2024