Nyheds rapport Teknologier
September 19, 2023

Google introducerer innovativ generativ billeddynamik, der simulerer dynamiske scener i statiske billeder

Google har afsløret en Generativ billeddynamik, muliggør en ny tilgang transformationen af ​​en enkelt statisk billede til en sømløs looping-video eller en interaktiv dynamisk scene, der tilbyder en bred vifte af praktiske anvendelser.

Google introducerer innovativ generativ billeddynamik, der simulerer dynamiske scener i statiske billeder

Kernen i denne banebrydende teknologi er modelleringen af ​​et billedrum forud for scenedynamik. Målet er at skabe en omfattende forståelse af, hvordan objekter og elementer i et billede kan opføre sig, når de udsættes for forskellige dynamiske interaktioner. Denne forståelse kan derefter bruges til effektivt at simulere objektdynamikkens reaktion på brugerinteraktioner.

Nøglefunktionen ved denne teknologi er evnen til at generere sømløse looping-videoer. Ved at udnytte billedrummet forud for scenedynamikken kan Googles system ekstrapolere og udvide bevægelsen af ​​elementer i et billede og transformere det til en fængslende og kontinuerlig videoloop. Denne funktionalitet åbner adskillige kreative muligheder for indholdsskabere og designere.

Artiklen præsenterer en tilgang til modellering af et billedrum forud baseret på scenedynamik, som er lært fra en samling af bevægelsesbaner udvundet fra rigtige videosekvenser, der indeholder naturlig, oscillerende bevægelse såsom træer, blomster, stearinlys og tøj, der blæser i vinden . Den trænede model bruger en frekvenskoordineret diffusionsprøvetagningsproces til at forudsige en per-pixel langsigtet bevægelsesrepræsentation i Fourier-domænet, som de kalder en neural stokastisk bevægelsestekstur. Denne repræsentation kan konverteres til tætte bevægelsesbaner, der spænder over en hel video.

Teknologien gør det muligt for brugere at interagere med objekter i statiske billeder realistisk. Ved at simulere objektdynamikkens reaktion på brugerens excitation tillader Googles system fordybende og interaktive oplevelser i billeder. Dette har potentiale til at revolutionere metaverse rum og hvordan brugere interagerer med visuelt indhold.

Undersøgelsen udforsker modellering af en generativ forud for billed-rum-scenebevægelse, dvs. bevægelsen af ​​alle pixels i et enkelt billede. Modellen er trænet på automatisk udtrukne bevægelsesbaner fra en stor samling af rigtige videosekvenser. Betinget på et inputbillede forudsiger den trænede model en neural stokastisk bevægelsestekstur: et sæt koefficienter for en bevægelsesbasis, der karakteriserer hver pixels bane ind i fremtiden.

Grundlaget for denne innovation ligger i en omhyggeligt trænet model. Googles model lærer fra et stort datasæt af bevægelsesbaner udtrukket fra rigtige videosekvenser med naturlig, oscillerende bevægelse. Disse sekvenser inkluderer scener med elementer som træer, der svajer, blomster, der bevæger sig, stearinlys, der flimrer, og tøj, der bølger i vinden. Dette mangfoldige datasæt gør det muligt for modellen at forstå en bred vifte af dynamisk adfærd.

Undersøgelsens omfang er begrænset til scener fra den virkelige verden med naturlig, oscillerende dynamik, såsom træer og blomster, der bevæger sig i vinden. Fourier-serien er valgt som basisfunktioner. De resulterende frekvens-rum-teksturer kan derefter omdannes til tætte pixelbevægelsesbaner med lang rækkevidde, som kan bruges til at syntetisere fremtidige frames og forvandle stillbilleder til realistiske animationer.

Når præsenteret for en enkeltbillede, anvender den trænede model en frekvenskoordineret diffusionsprøvetagningsproces. Denne proces forudsiger en per-pixel langsigtet bevægelsesrepræsentation i Fourier-domænet, kaldet en neural stokastisk bevægelsestekstur. Denne repræsentation omdannes derefter til tætte bevægelsesbaner, der spænder over en hel video. Sammen med et billedbaseret gengivelsesmodul kan disse baner udnyttes til forskellige praktiske anvendelser.

Sammenlignet med tidligere over rå RGB-pixel, fanger priors over motion mere fundamental, lavere dimensionel underdimensionel struktur, der effektivt forklarer variationer i pixelværdier. Dette fører til mere sammenhængende langsigtet generering og mere finkornet kontrol over animationer sammenlignet med tidligere metoder, der udfører billedanimation via rå videosyntese.

Den genererede bevægelsesrepræsentation er praktisk til en række downstream-applikationer, såsom oprettelse af sømløse looping-videoer, redigering af den genererede bevægelse og aktivering af interaktiv dynamiske billeder, der simulerer objektdynamikkens reaktion på brugerpåførte kræfter.

Læs flere relaterede emner:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

From Ripple to The Big Green DAO: How Cryptocurrency Projects Contribute to Charity

Lad os undersøge initiativer, der udnytter potentialet i digitale valutaer til velgørende formål.

Vide mere

AlphaFold 3, Med-Gemini og andre: The Way AI Transforms Healthcare in 2024

AI manifesterer sig på forskellige måder i sundhedsvæsenet, fra at afsløre nye genetiske sammenhænge til at styrke robotkirurgiske systemer ...

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
From Ripple to The Big Green DAO: How Cryptocurrency Projects Contribute to Charity
Analyse Crypto Wiki Forretning Uddannelse Lifestyle Markeder Software Teknologier
From Ripple to The Big Green DAO: How Cryptocurrency Projects Contribute to Charity
Maj 13, 2024
AlphaFold 3, Med-Gemini og andre: The Way AI Transforms Healthcare in 2024
AI Wiki Analyse Fordøje Udtalelse Forretning Markeder Nyheds rapport Software Historier og anmeldelser Teknologier
AlphaFold 3, Med-Gemini og andre: The Way AI Transforms Healthcare in 2024
Maj 13, 2024
Nim Network skal udrulle AI-ejerskabstokeniseringsramme og gennemføre udbyttesalg med snapshot-dato planlagt til maj
Markeder Nyheds rapport Teknologier
Nim Network skal udrulle AI-ejerskabstokeniseringsramme og gennemføre udbyttesalg med snapshot-dato planlagt til maj
Maj 13, 2024
Binance samarbejder med Argentina for at bekæmpe cyberkriminalitet
Udtalelse Forretning Markeder Nyheds rapport Software Teknologier
Binance samarbejder med Argentina for at bekæmpe cyberkriminalitet
Maj 13, 2024