19. September 2023

Google stellt innovative generative Bilddynamik vor, die dynamische Szenen in statischen Bildern simuliert

Veröffentlicht: 19. September 2023 um 4:21 Uhr. Aktualisiert: 19. September 2023 um 9:02 Uhr

Bearbeitet und faktengeprüft: 19. September 2023 um 4:21 Uhr

Google hat eine vorgestellt Generative Bilddynamik, ein neuartiger Ansatz ermöglicht die Transformation von a einzelnes statisches Bild in ein nahtloses Loop-Video umwandeln oder eine interaktive dynamische Szene, die eine breite Palette praktischer Anwendungen bietet.

Google stellt innovative generative Bilddynamik vor, die dynamische Szenen in statischen Bildern simuliert

Der Kern dieser bahnbrechenden Technologie ist die Modellierung eines Bildraums vor der Dynamik der Szene. Ziel ist es, ein umfassendes Verständnis dafür zu schaffen, wie sich Objekte und Elemente in einem Bild verhalten können, wenn sie verschiedenen dynamischen Interaktionen ausgesetzt sind. Dieses Verständnis kann dann genutzt werden, um die Reaktion der Objektdynamik auf Benutzerinteraktionen effektiv zu simulieren.

Das Hauptmerkmal dieser Technologie ist die Möglichkeit, Videos in nahtloser Endlosschleife zu erzeugen. Durch die Nutzung der Bildraumdynamik vor der Szene kann das System von Google die Bewegung von Elementen innerhalb eines Bildes extrapolieren und erweitern und es so in eine fesselnde und kontinuierliche Videoschleife umwandeln. Diese Funktionalität eröffnet Content-Erstellern und Designern zahlreiche kreative Möglichkeiten.

Der Artikel stellt einen Ansatz zur Modellierung eines Bildraums vor, der auf der Szenendynamik basiert und aus einer Sammlung von Bewegungstrajektorien gelernt wird, die aus realen Videosequenzen extrahiert wurden, die natürliche, oszillierende Bewegungen wie Bäume, Blumen, Kerzen und im Wind wehende Kleidung enthalten . Das trainierte Modell verwendet einen frequenzkoordinierten Diffusionsabtastprozess, um eine langfristige Bewegungsdarstellung pro Pixel im Fourier-Bereich vorherzusagen, die sie als neuronale stochastische Bewegungstextur bezeichnen. Diese Darstellung kann in dichte Bewegungstrajektorien umgewandelt werden, die sich über ein gesamtes Video erstrecken.

Die Technologie ermöglicht Benutzern eine realistische Interaktion mit Objekten in statischen Bildern. Durch die Simulation der Reaktion der Objektdynamik auf Benutzererregung ermöglicht das System von Google dies immersive und interaktive Erlebnisse innerhalb von Bildern. Das hat das Potenzial zur Revolution Metaverse-Räume und wie Benutzer mit visuellen Inhalten interagieren.

Die Studie untersucht die Modellierung eines generativen Priors für die Bildraum-Szenenbewegung, dh die Bewegung aller Pixel in einem einzelnen Bild. Das Modell wird auf automatisch extrahierten Bewegungstrajektorien aus einer großen Sammlung realer Videosequenzen trainiert. Basierend auf einem Eingabebild sagt das trainierte Modell eine neuronale stochastische Bewegungstextur voraus: eine Reihe von Koeffizienten einer Bewegungsbasis, die die Flugbahn jedes Pixels in die Zukunft charakterisieren.

Die Grundlage dieser Innovation liegt in einem sorgfältig trainierten Modell. Das Modell von Google lernt aus einem riesigen Datensatz von Bewegungstrajektorien, die aus echten Videosequenzen mit natürlicher, oszillierender Bewegung extrahiert wurden. Zu diesen Sequenzen gehören Szenen mit Elementen wie sich wiegenden Bäumen, sich bewegenden Blumen, flackernden Kerzen und im Wind wehenden Kleidern. Dieser vielfältige Datensatz ermöglicht es dem Modell, ein breites Spektrum dynamischer Verhaltensweisen zu verstehen.

Der Umfang der Studie beschränkt sich auf reale Szenen mit natürlicher, oszillierender Dynamik, wie zum Beispiel Bäume und Blumen, die sich im Wind bewegen. Als Basisfunktionen wird die Fourier-Reihe gewählt. Die resultierenden Frequenzraumtexturen können dann in dichte, weitreichende Pixelbewegungsbahnen umgewandelt werden, die zur Synthese zukünftiger Bilder verwendet werden können und so Standbilder in realistische Animationen verwandeln.

Bei Präsentation mit a EinzelbildDas trainierte Modell verwendet einen frequenzkoordinierten Diffusionsabtastprozess. Dieser Prozess sagt eine langfristige Bewegungsdarstellung pro Pixel im Fourier-Bereich voraus, die als neuronale stochastische Bewegungstextur bezeichnet wird. Diese Darstellung wird dann in dichte Bewegungstrajektorien umgewandelt, die sich über ein gesamtes Video erstrecken. Gekoppelt mit einem bildbasierten Rendering-Modul können diese Trajektorien für verschiedene praktische Anwendungen genutzt werden.

Im Vergleich zu Priors über rohen RGB-Pixeln erfassen Priors über Bewegung eine grundlegendere, niedrigerdimensionale unterdimensionale Struktur, die Variationen in Pixelwerten effizient erklärt. Dies führt zu einer kohärenteren Langzeitgenerierung und einer feinkörnigeren Steuerung der Animationen im Vergleich zu früheren, leistungsfähigeren Methoden Bildanimation über Rohvideosynthese.

Die generierte Bewegungsdarstellung eignet sich für eine Reihe nachgelagerter Anwendungen, z. B. das Erstellen nahtloser Looping-Videos, das Bearbeiten der generierten Bewegung und die Aktivierung interaktiver Funktionen dynamische Bilder, wodurch die Reaktion der Objektdynamik auf vom Benutzer ausgeübte Kräfte simuliert wird.

Lesen Sie weitere verwandte Themen:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.