Google introducerer innovativ generativ billeddynamik, der simulerer dynamiske scener i statiske billeder
Google har afsløret en Generativ billeddynamik, muliggør en ny tilgang transformationen af en enkelt statisk billede til en sømløs looping-video eller en interaktiv dynamisk scene, der tilbyder en bred vifte af praktiske anvendelser.
Kernen i denne banebrydende teknologi er modelleringen af et billedrum forud for scenedynamik. Målet er at skabe en omfattende forståelse af, hvordan objekter og elementer i et billede kan opføre sig, når de udsættes for forskellige dynamiske interaktioner. Denne forståelse kan derefter bruges til effektivt at simulere objektdynamikkens reaktion på brugerinteraktioner.
Nøglefunktionen ved denne teknologi er evnen til at generere sømløse looping-videoer. Ved at udnytte billedrummet forud for scenedynamikken kan Googles system ekstrapolere og udvide bevægelsen af elementer i et billede og transformere det til en fængslende og kontinuerlig videoloop. Denne funktionalitet åbner adskillige kreative muligheder for indholdsskabere og designere.
Teknologien gør det muligt for brugere at interagere med objekter i statiske billeder realistisk. Ved at simulere objektdynamikkens reaktion på brugerens excitation tillader Googles system fordybende og interaktive oplevelser i billeder. Dette har potentiale til at revolutionere metaverse rum og hvordan brugere interagerer med visuelt indhold.
Grundlaget for denne innovation ligger i en omhyggeligt trænet model. Googles model lærer fra et stort datasæt af bevægelsesbaner udtrukket fra rigtige videosekvenser med naturlig, oscillerende bevægelse. Disse sekvenser inkluderer scener med elementer som træer, der svajer, blomster, der bevæger sig, stearinlys, der flimrer, og tøj, der bølger i vinden. Dette mangfoldige datasæt gør det muligt for modellen at forstå en bred vifte af dynamisk adfærd.
Når præsenteret for en enkeltbillede, anvender den trænede model en frekvenskoordineret diffusionsprøvetagningsproces. Denne proces forudsiger en per-pixel langsigtet bevægelsesrepræsentation i Fourier-domænet, kaldet en neural stokastisk bevægelsestekstur. Denne repræsentation omdannes derefter til tætte bevægelsesbaner, der spænder over en hel video. Sammen med et billedbaseret gengivelsesmodul kan disse baner udnyttes til forskellige praktiske anvendelser.
Sammenlignet med tidligere over rå RGB-pixel, fanger priors over motion mere fundamental, lavere dimensionel underdimensionel struktur, der effektivt forklarer variationer i pixelværdier. Dette fører til mere sammenhængende langsigtet generering og mere finkornet kontrol over animationer sammenlignet med tidligere metoder, der udfører billedanimation via rå videosyntese.
Den genererede bevægelsesrepræsentation er praktisk til en række downstream-applikationer, såsom oprettelse af sømløse looping-videoer, redigering af den genererede bevægelse og aktivering af interaktiv dynamiske billeder, der simulerer objektdynamikkens reaktion på brugerpåførte kræfter.
Læs flere relaterede emner:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.