Google voittaa metan käynnistämällä uuden tekstistä videoksi tekoälygeneraattorin, Imagen Video
Lyhyesti
Googlen Imagen Video yrittää auttaa videogeneraattoria muuttamaan tappajasovelluksia
Ei kestänyt kauan, kun Google vastasi Metan Make-a-Video -viestiin. Käyttämällä tekstikehotetta, Kuvan video voi tuottaa upean videon. Tulokset ovat valtava edistysaskel tekniikan tason yläpuolella useista haitoista huolimatta.
Verrattuna Facebookin tekstistä videoksi tekoälygeneraattoriin Tehdä video, tulokset ovat huomattavasti parempia. Tämä strategia vaati kuitenkin myös enemmän valvontaa. Toisin kuin Imagen Videossa, jossa mikrotyöntekijät työskentelivät ahkerasti lisätäkseen elokuvia kirjallisilla kuvauksilla, Make-a-Scene käytti koulutukseen leimaamattomia videoita.
Arkkitehtuurin yksityiskohtiin meneminen on turhaa; sinun pitäisi lukea siitä artikkelista tätä. Voimme vain vahvistaa, että T16-enkooderin tekstin upottamisesta luodaan ensin 5 kuvaa resoluutiolla 48 × 24 ja 3 kuvaa sekunnissa, ja että tämä skaalataan sitten useilla diffuusiomalleilla lopulliseksi 128 kehyksen elokuvaksi. 1280×768 ja 24 kuvaa sekunnissa.
Mikä on Imagen Video?
Imagen Video on menetelmä, jolla luodaan tekstiehtoisia videoita, jotka perustuvat sarjaan videon diffuusiomalleja. Imagen Video tuottaa korkealaatuisia elokuvia tekstikehotteita yhdistämällä perusvideotuotantomalli sarjaan lomitettuja tila- ja aikavideon superresoluutiomalleja. Käy läpi suunnitteluvalintojen tiimi, jonka teki skaalattaessa järjestelmää korkeandefitekstistä videoksi -malli, mukaan lukien päätös diffuusiomallien v-parametrisoinnista ja täysin konvoluutiotettujen ajallisten ja spatiaalisten superresoluutiomallien valinta tietyillä resoluutioilla. Lisäksi se validoi ja soveltaa aikaisemman diffuusiopohjaisen kuvantuotannon työn tuloksia ja soveltaa niitä kontekstiin videon sukupolvi. Videomalleille suoritetaan sitten progressiivinen tislaus luokittelemattomalla ohjauksella nopeaa ja laadukasta näytteenottoa varten.
Googlen tutkimustiimi väittää, että järjestelmä hyväksyy tekstillisen kuvauksen ja luo 16 ruudun elokuvan kolme kuvaa sekunnissa 24 x 48 pikselin resoluutiolla. Järjestelmä skaalaa ja "ennustaa" ylimääräiset ruudut ja luo lopullisen videon, jossa on 128 kuvaa 24 ruudulla sekunnissa ja 720p-resoluutiolla (1280×768). Kuva-teksti-paria on 60 miljoonaa ja video-teksti-paria käytettiin Imagen Videon harjoittamiseen 14 miljoonaa.
Imagen Video-esimerkkejä
Vaikka vain siksi, että tekoälyn käyttö videon tekemiseen on nopeampaa ja halvempaa, tällaisia tekniikoita käytetään epäilemättä kaikkialla.
Kiinnostaako lukea lisää? Tässä on joitain lisäaiheita, jotka kannattaa tarkistaa:
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.
lisää artikkeleitaDamir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.