Google premaga Meta z uvedbo novega generatorja umetne inteligence za pretvorbo besedila v video, Imagen Video
Na kratko
Googlov Imagen Video poskuša pomagati, da se videogenerator spremeni v ubijalske aplikacije
Ni trajalo dolgo, da se je Google odzval na Make-a-Video iz Mete. Z uporabo besedilnega poziva, Slika Video lahko ustvari fantastičen video. Rezultati so kljub številnim pomanjkljivostim izjemen napredek nad stanjem tehnike.
V primerjavi s Facebookovim generatorjem umetne inteligence Text-to-Video Ustvari video, so rezultati opazno boljši. Vendar je ta strategija zahtevala tudi več nadzora. V nasprotju z Imagen Video, kjer so mikro delavci trdo delali, da so filmom dodali opombe s pisnimi opisi, je Make-a-Scene za usposabljanje uporabil neoznačene videoposnetke.
Spuščanje v specifiko arhitekture je nesmiselno; o tem bi morali prebrati v članku tukaj. Lahko samo potrdimo, da je 16 sličic najprej ustvarjenih iz besedilne vdelave kodirnika T5 pri ločljivosti 48 × 24 s 3 sličicami na sekundo in da se to nato poveča s številnimi difuzijskimi modeli v končni film s 128 sličicami. pri 1280×768 in 24 slikah na sekundo.
Kaj je Imagen Video?
Imagen Video je metoda za ustvarjanje besedilno pogojnih videoposnetkov, ki temelji na nizu modelov video difuzije. Imagen Video proizvaja visokokakovostne filme iz besedilni pozivi s kombiniranjem osnovnega modela video produkcije s serijo prepletenih prostorskih in časovnih video modelov super ločljivosti. Oglejte si oblikovalske izbire, ki jih je sprejela ekipa med povečevanjem sistema kot visokodefimodel besedila v video, vključno z odločitvijo za v-parametrizacijo difuzijskih modelov in izbiro popolnoma konvolucijskih časovnih in prostorskih modelov super ločljivosti pri določenih ločljivostih. Poleg tega potrjuje in uporablja rezultate prejšnjega dela o produkciji slik na podlagi difuzije v kontekstu video generiranje. Video modeli so nato podvrženi postopni destilaciji z vodenjem brez klasifikatorja za hitro in visokokakovostno vzorčenje.
Googlova raziskovalna skupina trdi, da sistem sprejema besedilni opis in ustvari film s 16 sličicami pri treh slikah na sekundo z ločljivostjo 24 krat 48 slikovnih pik. Sistem meri in "predvidi" dodatne sličice ter ustvari končni video s 128 sličicami pri 24 sličicah na sekundo in ločljivostjo 720p (1280×768). Za usposabljanje Imagen Video je bilo uporabljenih 60 milijonov parov slika-besedilo in 14 milijonov parov video-besedilo.
Imagen video vzorci
Četudi samo zato, ker je uporaba umetne inteligence za izdelavo videa hitrejša in cenejša, bodo takšne tehnologije nedvomno uporabljene povsod.
Vas zanima več? Tukaj je nekaj dodatnih tem, ki si jih lahko ogledate:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.