Nyhetsrapport
Oktober 06, 2022

Google övervinner meta genom att lansera en ny text-till-video AI Generator, Imagen Video 

I korthet

Googles Imagen Video försöker hjälpa videogenerator att förvandlas till killappar

Det tog inte lång tid för Google att svara på Make-a-Video från Meta. Genom att använda en textuppmaning, Bildvideo kan producera en fantastisk video. Resultaten är ett enormt framsteg över teknikens ståndpunkt trots ett antal nackdelar.

I jämförelse med Facebooks Text-to-Video AI-generator Göra en video, resultatet är märkbart bättre. Men denna strategi krävde också mer tillsyn. Till skillnad från Imagen Video, där mikroarbetarna arbetade hårt med att kommentera filmer med skrivna beskrivningar, använde Make-a-Scene omärkta videor för träning.

Att gå in på detaljerna i arkitekturen är meningslöst; du bör läsa om det i artikeln här.. Vi kan bara bekräfta att 16 bildrutor först genereras från textinbäddningen av T5-kodaren med en upplösning på 48×24 med 3 bildrutor per sekund, och att detta sedan uppskalas med ett antal diffusionsmodeller till den slutliga filmen på 128 bildrutor vid 1280×768 och 24 bilder per sekund.

Vad är Imagen Video?

Imagen Video är en metod för att skapa textvillkorade videor baserade på en serie videodiffusionsmodeller. Imagen Video producerar filmer av hög kvalitet från textmeddelanden genom att kombinera en basvideoproduktionsmodell med en serie sammanflätade rumsliga och temporala videomodeller med superupplösning. Gå igenom designvalsteamet som gjorts samtidigt som du skalar upp systemet som en hög-definition text-till-video-modell, inklusive beslutet att v-parameterisera diffusionsmodeller och valet av helt faltande temporala och rumsliga superupplösningsmodeller med specifika upplösningar. Dessutom validerar och applicerar den resultat från tidigare arbete med diffusionsbaserad bildproduktion i sammanhanget videogenerering. Videomodeller utsätts sedan för progressiv destillation med klassificeringsfri vägledning för snabb provtagning av hög kvalitet.

Googles forskningsteam hävdar att systemet accepterar en textbeskrivning och genererar en film med 16 bildrutor med tre bilder per sekund med en upplösning på 24 x 48 pixlar. Systemet skalar och "förutsäger" de extra bildrutorna och skapar en slutlig video med 128 bildrutor med 24 bildrutor per sekund och 720p upplösning (1280×768). Det finns 60 miljoner bild-text-par och 14 miljoner video-text-par användes för att träna Imagen Video.

Imagen Video Samples

Även om det bara är för att det är snabbare och billigare att använda AI för att göra video, kommer sådana tekniker utan tvekan att användas överallt.

Intresserad av att läsa mer? Här är några ytterligare ämnen att kolla upp:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

DOGE Frenzy: Analysera Dogecoins (DOGE) senaste ökning i värde

Kryptovalutaindustrin expanderar snabbt, och meme-mynt förbereder sig för en betydande uppgång. Dogecoin (DOGE), ...

Lär dig mer

Utvecklingen av AI-genererat innehåll i metaversen

Framväxten av generativt AI-innehåll är en av de mest fascinerande utvecklingarna i den virtuella miljön ...

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Tigermäklare lanserar handel med noll kommission för Bosera HashKey, China Asset Management och Harvest Spot Crypto ETF:er
Företag Marknader Nyhetsrapport
Tigermäklare lanserar handel med noll kommission för Bosera HashKey, China Asset Management och Harvest Spot Crypto ETF:er
29 april 2024
Scroll slutför Bernoulli Mainnet-uppgradering, räknar med 10x minskning av transaktionskostnader
Nyhetsrapport Teknologi
Scroll slutför Bernoulli Mainnet-uppgradering, räknar med 10x minskning av transaktionskostnader
29 april 2024
OKX Jumpstart listar Runecoin, gör det möjligt för BTC-insatser att tjäna RUNE-tokens
Marknader Nyhetsrapport Teknologi
OKX Jumpstart listar Runecoin, gör det möjligt för BTC-insatser att tjäna RUNE-tokens
29 april 2024
Veckans bästa erbjudanden, stora investeringar i AI, IT, Web3, och Crypto (22-26.04)
Smälta Företag Marknader Teknologi
Veckans bästa erbjudanden, stora investeringar i AI, IT, Web3, och Crypto (22-26.04)
26 april 2024