Notizie
Ottobre 06, 2022

Google supera Meta lanciando un nuovo generatore AI da testo a video, Imagen Video 

In Breve

Imagen Video di Google tenta di aiutare il generatore di video a trasformarsi in app killer

Non ci è voluto molto perché Google rispondesse a Make-a-Video da Meta. Utilizzando un prompt di testo, Immagine Video può produrre un video fantastico. I risultati sono un enorme progresso rispetto allo stato dell'arte, nonostante una serie di inconvenienti.

Rispetto al generatore AI Text-to-Video di Facebook Fare un video, i risultati sono notevolmente migliori. Tuttavia, questa strategia richiedeva anche una maggiore supervisione. A differenza di Imagen Video, in cui i micro lavoratori hanno lavorato duramente per annotare i film con descrizioni scritte, Make-a-Scene ha utilizzato video senza etichetta per la formazione.

Entrare nello specifico dell'architettura è inutile; dovresti leggerlo nell'articolo qui. Possiamo solo confermare che 16 fotogrammi vengono prima generati dall'incorporamento del testo dell'encoder T5 a una risoluzione di 48×24 con 3 fotogrammi al secondo, e che questo viene poi potenziato da una serie di modelli di diffusione nel film finale di 128 fotogrammi a 1280 × 768 e 24 fotogrammi al secondo.

Cos'è ImagenVideo?

Imagen Video è un metodo per creare video condizionali al testo basato su una serie di modelli di diffusione video. Imagen Video produce film di alta qualità da richieste di testo combinando un modello di produzione video di base con una serie di modelli di super risoluzione video spaziali e temporali interlacciati. Rivedi le scelte progettuali effettuate dal team durante l'ampliamento del sistema come un livello elevatodefinizione testo-video, inclusa la decisione di parametrizzare v i modelli di diffusione e la selezione di modelli temporali e spaziali completamente convoluzionali a super risoluzione a risoluzioni specifiche. Inoltre, convalida e applica i risultati del lavoro precedente sulla produzione di immagini basata sulla diffusione al contesto di generazione video. I modelli video vengono quindi sottoposti a distillazione progressiva con guida senza classificatore per un campionamento rapido e di alta qualità.

Il team di ricerca di Google afferma che il sistema accetta una descrizione testuale e genera un filmato di 16 fotogrammi a tre fotogrammi al secondo con una risoluzione di 24 x 48 pixel. Il sistema ridimensiona e "predice" i fotogrammi extra, creando un video finale con 128 fotogrammi a 24 fotogrammi al secondo e risoluzione 720p (1280×768). Ci sono 60 milioni di coppie immagine-testo e 14 milioni di coppie video-testo sono state utilizzate per addestrare Imagen Video.

Imagen Campioni video

Anche solo perché l'uso dell'intelligenza artificiale per realizzare video è più veloce e meno costoso, tali tecnologie saranno senza dubbio impiegate ovunque.

Interessato a leggere di più? Ecco alcuni argomenti aggiuntivi da verificare:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

La frenesia del DOGE: analisi del recente aumento di valore di Dogecoin (DOGE).

L’industria delle criptovalute è in rapida espansione e le monete meme si stanno preparando per una significativa ripresa. Dogecoin (DOGE), ...

Per saperne di più

L'evoluzione dei contenuti generati dall'intelligenza artificiale nel Metaverso

L’emergere di contenuti di intelligenza artificiale generativa è uno degli sviluppi più affascinanti all’interno dell’ambiente virtuale…

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Tiger Brokers lancerà il trading a zero commissioni per Bosera HashKey, China Asset Management e Harvest Spot Crypto ETF
Affari Mercati Notizie
Tiger Brokers lancerà il trading a zero commissioni per Bosera HashKey, China Asset Management e Harvest Spot Crypto ETF
29 aprile 2024
Scroll completa l'aggiornamento della mainnet Bernoulli e prevede una riduzione di 10 volte dei costi di transazione
Notizie Tecnologia
Scroll completa l'aggiornamento della mainnet Bernoulli e prevede una riduzione di 10 volte dei costi di transazione
29 aprile 2024
OKX Jumpstart elenca Runecoin, consente lo staking di BTC per guadagnare token RUNE
Mercati Notizie Tecnologia
OKX Jumpstart elenca Runecoin, consente lo staking di BTC per guadagnare token RUNE
29 aprile 2024
Le migliori offerte di questa settimana, i principali investimenti in AI, IT, Web3e Criptovaluta (22-26.04)
digerire Affari Mercati Tecnologia
Le migliori offerte di questa settimana, i principali investimenti in AI, IT, Web3e Criptovaluta (22-26.04)
26 aprile 2024
LABORATORI DI CRITTOMERIA PTE. srl.