September 19, 2023

Google introducerer innovativ generativ billeddynamik, der simulerer dynamiske scener i statiske billeder

Udgivet: 19. september 2023 kl. 4 Opdateret: 21. september 19 kl. 2023

Redigeret og faktatjekket: 19. september 2023 kl. 4:21

Google har afsløret en Generativ billeddynamik, muliggør en ny tilgang transformationen af en enkelt statisk billede til en sømløs looping-video eller en interaktiv dynamisk scene, der tilbyder en bred vifte af praktiske anvendelser.

Google introducerer innovativ generativ billeddynamik, der simulerer dynamiske scener i statiske billeder

Kernen i denne banebrydende teknologi er modelleringen af et billedrum forud for scenedynamik. Målet er at skabe en omfattende forståelse af, hvordan objekter og elementer i et billede kan opføre sig, når de udsættes for forskellige dynamiske interaktioner. Denne forståelse kan derefter bruges til effektivt at simulere objektdynamikkens reaktion på brugerinteraktioner.

Nøglefunktionen ved denne teknologi er evnen til at generere sømløse looping-videoer. Ved at udnytte billedrummet forud for scenedynamikken kan Googles system ekstrapolere og udvide bevægelsen af elementer i et billede og transformere det til en fængslende og kontinuerlig videoloop. Denne funktionalitet åbner adskillige kreative muligheder for indholdsskabere og designere.

Artiklen præsenterer en tilgang til modellering af et billedrum forud baseret på scenedynamik, som er lært fra en samling af bevægelsesbaner udvundet fra rigtige videosekvenser, der indeholder naturlig, oscillerende bevægelse såsom træer, blomster, stearinlys og tøj, der blæser i vinden . Den trænede model bruger en frekvenskoordineret diffusionsprøvetagningsproces til at forudsige en per-pixel langsigtet bevægelsesrepræsentation i Fourier-domænet, som de kalder en neural stokastisk bevægelsestekstur. Denne repræsentation kan konverteres til tætte bevægelsesbaner, der spænder over en hel video.

Teknologien gør det muligt for brugere at interagere med objekter i statiske billeder realistisk. Ved at simulere objektdynamikkens reaktion på brugerens excitation tillader Googles system fordybende og interaktive oplevelser i billeder. Dette har potentiale til at revolutionere metaverse rum og hvordan brugere interagerer med visuelt indhold.

Undersøgelsen udforsker modellering af en generativ forud for billed-rum-scenebevægelse, dvs. bevægelsen af alle pixels i et enkelt billede. Modellen er trænet på automatisk udtrukne bevægelsesbaner fra en stor samling af rigtige videosekvenser. Betinget på et inputbillede forudsiger den trænede model en neural stokastisk bevægelsestekstur: et sæt koefficienter for en bevægelsesbasis, der karakteriserer hver pixels bane ind i fremtiden.

Grundlaget for denne innovation ligger i en omhyggeligt trænet model. Googles model lærer fra et stort datasæt af bevægelsesbaner udtrukket fra rigtige videosekvenser med naturlig, oscillerende bevægelse. Disse sekvenser inkluderer scener med elementer som træer, der svajer, blomster, der bevæger sig, stearinlys, der flimrer, og tøj, der bølger i vinden. Dette mangfoldige datasæt gør det muligt for modellen at forstå en bred vifte af dynamisk adfærd.

Undersøgelsens omfang er begrænset til scener fra den virkelige verden med naturlig, oscillerende dynamik, såsom træer og blomster, der bevæger sig i vinden. Fourier-serien er valgt som basisfunktioner. De resulterende frekvens-rum-teksturer kan derefter omdannes til tætte pixelbevægelsesbaner med lang rækkevidde, som kan bruges til at syntetisere fremtidige frames og forvandle stillbilleder til realistiske animationer.

Når præsenteret for en enkeltbillede, anvender den trænede model en frekvenskoordineret diffusionsprøvetagningsproces. Denne proces forudsiger en per-pixel langsigtet bevægelsesrepræsentation i Fourier-domænet, kaldet en neural stokastisk bevægelsestekstur. Denne repræsentation omdannes derefter til tætte bevægelsesbaner, der spænder over en hel video. Sammen med et billedbaseret gengivelsesmodul kan disse baner udnyttes til forskellige praktiske anvendelser.

Sammenlignet med tidligere over rå RGB-pixel, fanger priors over motion mere fundamental, lavere dimensionel underdimensionel struktur, der effektivt forklarer variationer i pixelværdier. Dette fører til mere sammenhængende langsigtet generering og mere finkornet kontrol over animationer sammenlignet med tidligere metoder, der udfører billedanimation via rå videosyntese.

Den genererede bevægelsesrepræsentation er praktisk til en række downstream-applikationer, såsom oprettelse af sømløse looping-videoer, redigering af den genererede bevægelse og aktivering af interaktiv dynamiske billeder, der simulerer objektdynamikkens reaktion på brugerpåførte kræfter.

Læs flere relaterede emner:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov