Notizie Tecnologia
19 settembre 2023

Google presenta dinamiche di immagine generative innovative che simulano scene dinamiche in immagini statiche

Google ha presentato a Dinamica generativa dell'immagine, un nuovo approccio consente la trasformazione di a singola immagine statica in un video in loop continuo o una scena dinamica interattiva, che offre una vasta gamma di applicazioni pratiche.

Google presenta dinamiche di immagine generative innovative che simulano scene dinamiche in immagini statiche

Al centro di questa tecnologia pionieristica c’è la modellazione di uno spazio dell’immagine prima della dinamica della scena. L'obiettivo è creare una comprensione completa di come gli oggetti e gli elementi all'interno di un'immagine possono comportarsi se sottoposti a varie interazioni dinamiche. Questa comprensione può quindi essere utilizzata per simulare in modo efficace la risposta della dinamica degli oggetti alle interazioni dell'utente.

La caratteristica chiave di questa tecnologia è la capacità di generare video in loop continuo. Sfruttando lo spazio dell'immagine prima della dinamica della scena, il sistema di Google può estrapolare ed estendere il movimento degli elementi all'interno di un'immagine, trasformandola in un loop video accattivante e continuo. Questa funzionalità apre numerose possibilità creative per creatori e designer di contenuti.

L'articolo presenta un approccio alla modellazione di uno spazio-immagine basato sulla dinamica della scena, appreso da una raccolta di traiettorie di movimento estratte da sequenze video reali contenenti movimenti naturali oscillanti come alberi, fiori, candele e vestiti mossi dal vento. . Il modello addestrato utilizza un processo di campionamento di diffusione coordinato in frequenza per prevedere una rappresentazione del movimento a lungo termine per pixel nel dominio di Fourier, che chiamano trama di movimento stocastico neurale. Questa rappresentazione può essere convertita in traiettorie di movimento dense che abbracciano un intero video.

La tecnologia consente agli utenti di interagire in modo realistico con gli oggetti all'interno di immagini statiche. Simulando la risposta della dinamica degli oggetti all'eccitazione dell'utente, il sistema di Google consente esperienze coinvolgenti e interattive all'interno delle immagini. Questo ha il potenziale per rivoluzionare spazi del metaverso e il modo in cui gli utenti interagiscono con i contenuti visivi.

Lo studio esplora la modellazione di una generazione a priori per il movimento della scena nello spazio immagine, ovvero il movimento di tutti i pixel in una singola immagine. Il modello viene addestrato su traiettorie di movimento estratte automaticamente da un'ampia raccolta di sequenze video reali. Condizionato su un'immagine di input, il modello addestrato prevede una trama di movimento stocastico neurale: un insieme di coefficienti di una base di movimento che caratterizza la traiettoria di ciascun pixel nel futuro.

La base di questa innovazione risiede in un modello meticolosamente addestrato. Il modello di Google apprende da un vasto set di dati di traiettorie di movimento estratte da sequenze video reali caratterizzate da un movimento naturale e oscillante. Queste sequenze includono scene con elementi come alberi che ondeggiano, fiori che si muovono, candele tremolanti e vestiti fluttuanti nel vento. Questo set di dati diversificato consente al modello di comprendere un’ampia gamma di comportamenti dinamici.

L'ambito dello studio è limitato alle scene del mondo reale con dinamiche naturali oscillanti, come alberi e fiori che si muovono nel vento. Come funzione base viene scelta la serie di Fourier. Le texture dello spazio di frequenza risultanti possono quindi essere trasformate in traiettorie di movimento dei pixel dense e a lungo raggio, che possono essere utilizzate per sintetizzare fotogrammi futuri, trasformando le immagini fisse in animazioni realistiche.

Quando viene presentato con a Singola immagine, il modello addestrato utilizza un processo di campionamento a diffusione coordinata in frequenza. Questo processo prevede una rappresentazione del movimento a lungo termine per pixel nel dominio di Fourier, denominata trama di movimento stocastico neurale. Questa rappresentazione viene poi trasformata in dense traiettorie di movimento che abbracciano un intero video. Abbinate a un modulo di rendering basato su immagini, queste traiettorie possono essere sfruttate per varie applicazioni pratiche.

Rispetto ai precedenti rispetto ai pixel RGB grezzi, i precedenti rispetto al movimento catturano una struttura sottodimensionale più fondamentale e di dimensione inferiore che spiega in modo efficiente le variazioni nei valori dei pixel. Ciò porta a una generazione più coerente a lungo termine e a un controllo più preciso sulle animazioni rispetto ai metodi precedenti che eseguono animazione dell'immagine tramite sintesi video grezza.

La rappresentazione del movimento generata è utile per una serie di applicazioni a valle, come la creazione di video in loop continuo, la modifica del movimento generato e l'abilitazione di video interattivi. immagini dinamiche, simulando la risposta della dinamica degli oggetti alle forze applicate dall'utente.

Leggi altri argomenti correlati:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Hot Stories
Iscriviti alla nostra newsletter.
Notizie

Da Ripple a The Big Green DAO: come i progetti di criptovaluta contribuiscono alla beneficenza

Esploriamo le iniziative che sfruttano il potenziale delle valute digitali per cause di beneficenza.

Per saperne di più

AlphaFold 3, Med-Gemini e altri: il modo in cui l'intelligenza artificiale trasforma l'assistenza sanitaria nel 2024

L'intelligenza artificiale si manifesta in vari modi nel settore sanitario, dalla scoperta di nuove correlazioni genetiche al potenziamento dei sistemi chirurgici robotici...

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
I 10 migliori strumenti IA gratuiti per la creazione di contenuti, l'editing video e altro ancora
AI Wiki digerire Istruzione Stile di vita Software Tecnologia
I 10 migliori strumenti IA gratuiti per la creazione di contenuti, l'editing video e altro ancora
14 Maggio 2024
La Securities Commission di Hong Kong mette in guardia dalle truffe deepfake che prendono di mira l'industria delle criptovalute: implicazioni per la sicurezza degli investitori
Stile di vita Sicurezza Wiki Software Storie e recensioni Tecnologia
La Securities Commission di Hong Kong mette in guardia dalle truffe deepfake che prendono di mira l'industria delle criptovalute: implicazioni per la sicurezza degli investitori
14 Maggio 2024
Ripple ed Evmos collaborano allo sviluppo di XRP Ledger EVM Sidechain con la tecnologia EvmOS
Affari Notizie Tecnologia
Ripple ed Evmos collaborano allo sviluppo di XRP Ledger EVM Sidechain con la tecnologia EvmOS
14 Maggio 2024
5ireChain avvia il "Testnet Thunder: GA" incentivato per gli stress test di rete e invita gli utenti a partecipare Airdrop Rewards
Notizie Tecnologia
5ireChain avvia il "Testnet Thunder: GA" incentivato per gli stress test di rete e invita gli utenti a partecipare Airdrop Rewards
14 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.