Nieuwsverslag Technologie
19 september 2023

Google introduceert innovatieve generatieve beelddynamiek die dynamische scènes in statische beelden simuleert

Google heeft een Generatieve beelddynamiek, maakt een nieuwe aanpak de transformatie mogelijk van a één statisch beeld in een naadloze looping-video of een interactieve dynamische scène, die een breed scala aan praktische toepassingen biedt.

Google introduceert innovatieve generatieve beelddynamiek die dynamische scènes in statische beelden simuleert

De kern van deze baanbrekende technologie is het modelleren van een beeldruimte voorafgaand aan de scènedynamiek. Het doel is om een ​​uitgebreid inzicht te krijgen in hoe objecten en elementen in een afbeelding zich kunnen gedragen wanneer ze worden onderworpen aan verschillende dynamische interacties. Dit inzicht kan vervolgens worden gebruikt om de reactie van objectdynamiek op gebruikersinteracties effectief te simuleren.

Het belangrijkste kenmerk van deze technologie is de mogelijkheid om naadloze looping-video's te genereren. Door gebruik te maken van de beeldruimte voorafgaand aan de scènedynamiek, kan het systeem van Google de beweging van elementen binnen een afbeelding extrapoleren en uitbreiden, waardoor deze wordt omgezet in een boeiende en continue videoloop. Deze functionaliteit opent talloze creatieve mogelijkheden voor makers van inhoud en ontwerpers.

Het artikel presenteert een aanpak voor het modelleren van een beeldruimte op basis van scènedynamiek, die wordt geleerd uit een verzameling bewegingstrajecten die zijn ontleend aan echte videosequenties met natuurlijke, oscillerende bewegingen zoals bomen, bloemen, kaarsen en kleding die in de wind waait. . Het getrainde model maakt gebruik van een frequentiegecoördineerd diffusiebemonsteringsproces om een ​​langetermijnbewegingsrepresentatie per pixel in het Fourier-domein te voorspellen, die zij een neurale stochastische bewegingstextuur noemen. Deze representatie kan worden omgezet in dichte bewegingstrajecten die een hele video bestrijken.

De technologie stelt gebruikers in staat om realistisch te communiceren met objecten in statische afbeeldingen. Door de reactie van objectdynamiek op gebruikersexcitatie te simuleren, maakt het systeem van Google dit mogelijk meeslepende en interactieve ervaringen binnen afbeeldingen. Dit heeft het potentieel om een ​​revolutie teweeg te brengen metaverse ruimtes en hoe gebruikers omgaan met visuele inhoud.

De studie onderzoekt het modelleren van een generatieve prior voor scènebeweging in de beeldruimte, dwz de beweging van alle pixels in een enkel beeld. Het model wordt getraind op automatisch geëxtraheerde bewegingstrajecten uit een grote verzameling echte videosequenties. Geconditioneerd op een invoerbeeld voorspelt het getrainde model een neurale stochastische bewegingstextuur: een reeks coëfficiënten van een bewegingsbasis die het traject van elke pixel naar de toekomst karakteriseren.

De basis van deze innovatie ligt in een zorgvuldig getraind model. Het model van Google leert van een enorme dataset van bewegingstrajecten die zijn ontleend aan echte videosequenties met natuurlijke, oscillerende bewegingen. Deze sequenties bevatten scènes met elementen zoals zwaaiende bomen, bewegende bloemen, flikkerende kaarsen en golvende kleding in de wind. Dankzij deze diverse dataset kan het model een breed scala aan dynamisch gedrag begrijpen.

De reikwijdte van het onderzoek is beperkt tot scènes uit de echte wereld met natuurlijke, oscillerende dynamiek, zoals bomen en bloemen die in de wind bewegen. Als basisfuncties is gekozen voor de Fourierreeks. De resulterende frequentieruimtetexturen kunnen vervolgens worden omgezet in dichte, langeafstandspixelbewegingstrajecten, die kunnen worden gebruikt om toekomstige frames te synthetiseren, waardoor stilstaande beelden in realistische animaties worden omgezet.

Wanneer gepresenteerd met een Enkele afbeeldingmaakt het getrainde model gebruik van een frequentiegecoördineerd diffusiebemonsteringsproces. Dit proces voorspelt een bewegingsrepresentatie per pixel op lange termijn in het Fourier-domein, een zogenaamde neurale stochastische bewegingstextuur. Deze representatie wordt vervolgens omgezet in dichte bewegingstrajecten die een hele video bestrijken. In combinatie met een op afbeeldingen gebaseerde weergavemodule kunnen deze trajecten worden ingezet voor verschillende praktische toepassingen.

Vergeleken met priors boven onbewerkte RGB-pixels, leggen priors boven beweging een meer fundamentele, lager-dimensionale onder-dimensionale structuur vast die op efficiënte wijze variaties in pixelwaarden verklaart. Dit leidt tot een meer coherente generatie op lange termijn en een meer fijnmazige controle over animaties in vergelijking met eerdere methoden die presteren beeld animatie via ruwe videosynthese.

De gegenereerde bewegingsweergave is handig voor een aantal downstream-toepassingen, zoals het maken van video's met naadloze loops, het bewerken van de gegenereerde beweging en het mogelijk maken van interactieve dynamische beelden, waarmee de reactie van objectdynamiek op door de gebruiker uitgeoefende krachten wordt gesimuleerd.

Lees meer gerelateerde onderwerpen:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
hhh
Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid
Analyse crypto Wiki Business Onderwijs Lifestyle Markten Software Technologie
Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid
13 mei 2024
AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024
AI Wiki Analyse Verteren Advies Business Markten Nieuwsverslag Software Verhalen en recensies Technologie
AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024
13 mei 2024
Nim Network gaat AI-eigendomstokenisatieframework uitrollen en opbrengstverkoop uitvoeren met momentopname gepland voor mei
Markten Nieuwsverslag Technologie
Nim Network gaat AI-eigendomstokenisatieframework uitrollen en opbrengstverkoop uitvoeren met momentopname gepland voor mei
13 mei 2024
Binance werkt samen met Argentinië om cybercriminaliteit te bestrijden
Advies Business Markten Nieuwsverslag Software Technologie
Binance werkt samen met Argentinië om cybercriminaliteit te bestrijden
13 mei 2024