Novinky
Října 06, 2022

Google překonává Meta spuštěním nového generátoru umělé inteligence pro převod textu na video, Imagen Video 

Stručně

Google Imagen Video se pokouší pomoci videogenerátoru proměnit se v zabijácké aplikace

Netrvalo dlouho a Google odpověděl na Make-a-Video od Meta. Pomocí textové výzvy Obrázek Video může vytvořit fantastické video. Výsledky jsou obrovským pokrokem oproti stavu techniky i přes řadu nevýhod.

Ve srovnání s generátorem umělé inteligence pro text na video od Facebooku Make-a-Video, výsledky jsou znatelně lepší. Tato strategie však také vyžadovala větší dohled. Na rozdíl od Imagen Video, kde mikropracovníci tvrdě pracovali na anotaci filmů s psaným popisem, Make-a-Scene používala pro školení neoznačená videa.

Zabíhat do specifik architektury je zbytečné; měli byste si o tom přečíst v článku zde. Můžeme jen potvrdit, že 16 snímků je nejprve vygenerováno z textového vložení kodéru T5 v rozlišení 48×24 se 3 snímky za sekundu, a že to je následně upscalováno řadou difúzních modelů do finálního filmu o 128 snímcích. při 1280×768 a 24 snímcích za sekundu.

Co je Imagen Video?

Imagen Video je metoda pro vytváření textově podmíněných videí na základě řady modelů šíření videa. Imagen Video produkuje vysoce kvalitní filmy textové výzvy kombinací základního modelu video produkce se sérií prokládaných prostorových a časových modelů videa ve vysokém rozlišení. Projděte si výběr návrhu, který tým provedl při škálování systému jako vysocedefination text-to-video model, včetně rozhodnutí o v-parametrizaci difúzních modelů a výběru plně konvolučních časových a prostorových superrozlišovacích modelů při konkrétních rozlišeních. Kromě toho ověřuje a aplikuje výsledky dřívějších prací na produkci obrazu založené na difúzi v kontextu generování videa. Video modely jsou poté podrobeny progresivní destilaci s vedením bez klasifikátoru pro rychlé a vysoce kvalitní vzorkování.

Výzkumný tým Google tvrdí, že systém přijímá textový popis a vygeneruje 16snímkový film při třech snímcích za sekundu s rozlišením 24 x 48 pixelů. Systém škáluje a „předpovídá“ další snímky a vytváří konečné video se 128 snímky při 24 snímcích za sekundu a rozlišením 720p (1280×768). Existuje 60 milionů párů obrázek-text a 14 milionů párů video-text bylo použito k trénování Imagen Video.

Ukázky videa Imagen

I když jen proto, že použití umělé inteligence k vytváření videa je rychlejší a levnější, takové technologie se nepochybně najdou všude.

Máte zájem o další čtení? Zde jsou některá další témata, která si můžete prohlédnout:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Hot Stories
Připojte se k našemu zpravodaji.
Novinky

The DOGE Frenzy: Analýza nedávného nárůstu hodnoty dogecoinu (DOGE).

Odvětví kryptoměn se rychle rozrůstá a meme coiny se připravují na výrazný vzestup. Dogecoin (DOGE),...

Vědět více

Vývoj obsahu generovaného umělou inteligencí v Metaverse

Vznik generativního obsahu umělé inteligence je jedním z nejvíce fascinujících pokroků ve virtuálním prostředí...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Tiger Brokers zahájí obchodování s nulovými provizemi pro Bosera HashKey, China Asset Management a Harvest Spot Crypto ETF
Business Trhy Novinky
Tiger Brokers zahájí obchodování s nulovými provizemi pro Bosera HashKey, China Asset Management a Harvest Spot Crypto ETF
29. dubna 2024
Scroll dokončuje upgrade Bernoulli Mainnet, očekává 10x snížení transakčních nákladů
Novinky Technika
Scroll dokončuje upgrade Bernoulli Mainnet, očekává 10x snížení transakčních nákladů
29. dubna 2024
OKX Jumpstart uvádí Runecoiny, umožňuje sázky BTC k vydělávání tokenů RUNE
Trhy Novinky Technika
OKX Jumpstart uvádí Runecoiny, umožňuje sázky BTC k vydělávání tokenů RUNE
29. dubna 2024
Nejlepší nabídky tohoto týdne, velké investice do AI, IT, Web3a kryptoměny (22-26.04)
Strávit Business Trhy Technika
Nejlepší nabídky tohoto týdne, velké investice do AI, IT, Web3a kryptoměny (22-26.04)
26. dubna 2024
CRYPTOMERIA LABS PTE. LTD.