Informe de notícies
Octubre 06, 2022

Google supera Meta llançant un nou generador d'IA de text a vídeo, Imagen Video 

En breu

Imagen Video de Google intenta ajudar el generador de vídeos a convertir-se en aplicacions assassines

Google no va trigar gaire a respondre a Make-a-Video des de Meta. Mitjançant una indicació de text, Imatge Vídeo pot produir un vídeo fantàstic. Els resultats són un gran avanç per sobre de l'estat de la tècnica malgrat una sèrie d'inconvenients.

En comparació amb el generador d'IA de text a vídeo de Facebook Fes un vídeo, els resultats són notablement millors. Tanmateix, aquesta estratègia també exigia més control. En contrast amb Imagen Video, on els microtreballadors van treballar dur per anotar pel·lícules amb descripcions escrites, Make-a-Scene va utilitzar vídeos sense etiquetar per a la formació.

Entrar en els detalls de l'arquitectura no té sentit; hauríeu de llegir-ne l'article aquí. Només podem confirmar que primer es generen 16 fotogrames a partir de la incrustació de text del codificador T5 a una resolució de 48 × 24 amb 3 fotogrames per segon, i que després s'incrementa per diversos models de difusió a la pel·lícula final de 128 fotogrames. a 1280×768 i 24 fotogrames per segon.

Què és Imagen Video?

Imagen Video és un mètode per crear vídeos condicionals de text basat en una sèrie de models de difusió de vídeo. Imagen Video produeix pel·lícules d'alta qualitat a partir de sol·licituds de text combinant un model de producció de vídeo base amb una sèrie de models de superresolució de vídeo espacial i temporal entrellaçats. Reviseu les opcions de disseny fetes per l'equip mentre s'escala el sistema com adefimodel de text a vídeo, inclosa la decisió de parametritzar en v models de difusió i la selecció de models de superresolució temporal i espacial totalment convolucionals a resolucions específiques. A més, valida i aplica els resultats de treballs anteriors sobre la producció d'imatges basades en la difusió al context de generació de vídeo. A continuació, els models de vídeo se sotmeten a una destil·lació progressiva amb una guia sense classificador per a un mostreig ràpid i d'alta qualitat.

L'equip d'investigació de Google afirma que el sistema accepta una descripció textual i genera una pel·lícula de 16 fotogrames a tres fotogrames per segon amb una resolució de 24 per 48 píxels. El sistema escala i "prediu" els fotogrames addicionals, creant un vídeo final amb 128 fotogrames a 24 fotogrames per segon i una resolució de 720p (1280 × 768). Hi ha 60 milions de parells imatge-text i 14 milions de parells de vídeo-text es van utilitzar per entrenar Imagen Video.

Imatge de mostres de vídeo

Encara que només sigui perquè utilitzar la IA per fer vídeo és més ràpid i menys costós, aquestes tecnologies, sens dubte, s'utilitzaran a tot arreu.

T'interessa llegir més? Aquí teniu alguns temes addicionals per consultar:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

The DOGE Frenzy: anàlisi de l'augment recent del valor de Dogecoin (DOGE).

La indústria de la criptomoneda s'està expandint ràpidament i les monedes memes es preparen per a un augment significatiu. Dogecoin (DOGE),...

saber Més

L'evolució del contingut generat per IA al metavers

L'aparició del contingut generatiu d'IA és un dels desenvolupaments més fascinants dins de l'entorn virtual...

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
Tiger Brokers llançarà el comerç sense comissió per a Bosera HashKey, la gestió d'actius de la Xina i els ETF Crypto Harvest Spot
Negocis mercats Informe de notícies
Tiger Brokers llançarà el comerç sense comissió per a Bosera HashKey, la gestió d'actius de la Xina i els ETF Crypto Harvest Spot
Abril 29, 2024
Scroll completa l'actualització de la xarxa principal de Bernoulli, preveu una disminució de 10 vegades en els costos de transacció
Informe de notícies Tecnologia
Scroll completa l'actualització de la xarxa principal de Bernoulli, preveu una disminució de 10 vegades en els costos de transacció
Abril 29, 2024
OKX Jumpstart llista Runecoin, permet l'aposta BTC per guanyar fitxes RUNE
mercats Informe de notícies Tecnologia
OKX Jumpstart llista Runecoin, permet l'aposta BTC per guanyar fitxes RUNE
Abril 29, 2024
Les millors ofertes d'aquesta setmana, les principals inversions en IA, TI, Web3i Crypto (22-26.04)
Resum Negocis mercats Tecnologia
Les millors ofertes d'aquesta setmana, les principals inversions en IA, TI, Web3i Crypto (22-26.04)
Abril 26, 2024
CRYPTOMERIA LABS PTE. LTD.