19 września 2023 r.

Google wprowadza innowacyjną generatywną dynamikę obrazu, która symuluje dynamiczne sceny w obrazach statycznych

Opublikowano: 19 września 2023 o 4:21 Zaktualizowano: 19 września 2023 o 9:02

Edytowane i sprawdzone pod kątem faktów: 19 września 2023 r. o 4:21

Google zaprezentowało m.in Generatywna dynamika obrazunowatorskie podejście umożliwia transformację a pojedynczy statyczny obraz w płynnie zapętlony film lub interaktywną dynamiczną scenę, oferującą szeroki wachlarz praktycznych zastosowań.

Google wprowadza innowacyjną generatywną dynamikę obrazu, która symuluje dynamiczne sceny w obrazach statycznych

U podstaw tej pionierskiej technologii leży modelowanie przestrzeni obrazu przed dynamiką sceny. Celem jest uzyskanie wszechstronnego zrozumienia tego, jak obiekty i elementy obrazu mogą zachowywać się, gdy zostaną poddane różnym dynamicznym interakcjom. Wiedzę tę można następnie wykorzystać do skutecznego symulowania reakcji dynamiki obiektu na interakcje użytkownika.

Kluczową cechą tej technologii jest możliwość generowania płynnie zapętlonych filmów. Wykorzystując przestrzeń obrazu przed dynamiką sceny, system Google może ekstrapolować i rozszerzać ruch elementów obrazu, przekształcając go w urzekającą i ciągłą pętlę wideo. Ta funkcjonalność otwiera liczne możliwości twórcze dla twórców treści i projektantów.

W artykule przedstawiono podejście do modelowania przestrzeni obrazu w oparciu o dynamikę sceny, którą poznaje się na podstawie zbioru trajektorii ruchu wyodrębnionych z rzeczywistych sekwencji wideo zawierających naturalny, oscylujący ruch, takich jak drzewa, kwiaty, świece i ubrania powiewające na wietrze. . Wyszkolony model wykorzystuje proces próbkowania dyfuzyjnego skoordynowanego częstotliwościowo do przewidywania długoterminowej reprezentacji ruchu na piksel w domenie Fouriera, którą nazywają neuronową stochastyczną teksturą ruchu. Reprezentację tę można przekształcić w gęste trajektorie ruchu obejmujące cały film.

Technologia ta umożliwia użytkownikom realistyczną interakcję z obiektami znajdującymi się na statycznych obrazach. Symulując reakcję dynamiki obiektu na pobudzenie użytkownika, system Google pozwala na to wciągające i interaktywne doświadczenia w obrazach. To ma potencjał, aby zrewolucjonizować przestrzenie metawersyjne oraz sposób, w jaki użytkownicy wchodzą w interakcję z treściami wizualnymi.

W badaniu zbadano modelowanie wcześniej generatywnego ruchu sceny w przestrzeni obrazu, tj. ruchu wszystkich pikseli na pojedynczym obrazie. Model jest szkolony na automatycznie wyodrębnionych trajektoriach ruchu z dużej kolekcji rzeczywistych sekwencji wideo. Wytrenowany model, oparty na obrazie wejściowym, przewiduje neuronową stochastyczną teksturę ruchu: zbiór współczynników podstawy ruchu, które charakteryzują trajektorię każdego piksela w przyszłość.

Podstawą tej innowacji jest skrupulatnie przeszkolony model. Model Google uczy się na podstawie ogromnego zbioru danych trajektorii ruchu wyodrębnionych z rzeczywistych sekwencji wideo przedstawiających naturalny, oscylujący ruch. Sekwencje te obejmują sceny z takimi elementami, jak kołysanie się drzew, poruszanie się kwiatów, migotanie świec i ubrania powiewające na wietrze. Ten zróżnicowany zbiór danych umożliwia modelowi zrozumienie szerokiego zakresu zachowań dynamicznych.

Zakres badania ogranicza się do scen ze świata rzeczywistego o naturalnej, oscylującej dynamice, takich jak drzewa i kwiaty poruszające się na wietrze. Jako funkcję bazową wybrano szereg Fouriera. Powstałe tekstury częstotliwościowo-przestrzenne można następnie przekształcić w gęste trajektorie ruchu pikseli o dużym zasięgu, które można wykorzystać do syntezy przyszłych klatek, przekształcając nieruchome obrazy w realistyczne animacje.

W przypadku przedstawienia z a pojedynczy obrazwyszkolony model wykorzystuje proces próbkowania dyfuzyjnego skoordynowanego częstotliwościowo. Proces ten przewiduje długoterminową reprezentację ruchu na piksel w domenie Fouriera, nazywaną neuronową stochastyczną teksturą ruchu. Reprezentacja ta jest następnie przekształcana w gęste trajektorie ruchu obejmujące cały film. W połączeniu z modułem renderowania opartym na obrazach trajektorie te można wykorzystać do różnych zastosowań praktycznych.

W porównaniu z wcześniejszymi pikselami RGB, wcześniejsze niż ruch przechwytują bardziej podstawową, niskowymiarową strukturę podwymiarową, która skutecznie wyjaśnia różnice w wartościach pikseli. Prowadzi to do bardziej spójnego, długoterminowego generowania i bardziej szczegółowej kontroli nad animacjami w porównaniu do wcześniejszych metod, które zapewniają animacja obrazu poprzez surową syntezę wideo.

Wygenerowana reprezentacja ruchu jest wygodna w wielu dalszych zastosowaniach, takich jak tworzenie płynnie zapętlonych filmów, edycja wygenerowanego ruchu i umożliwianie interaktywnych dynamiczne obrazy, symulując reakcję dynamiki obiektu na siły przyłożone przez użytkownika.

Przeczytaj więcej powiązanych tematów:

tagi:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.

Więcej artykułów

Damir Jałałow