Септембар 19, 2023

Гоогле уводи иновативну генеративну динамику слике која симулира динамичке сцене у статичним сликама

Објављено: 19. септембра 2023. у 4:21 Ажурирано: 19. септембра 2023. у 9:02

Измењено и проверено: 19. септембар 2023. у 4:21

Гугл је представио а Генеративна динамика слике, нови приступ омогућава трансформацију а једну статичну слику у бешавни видео који се понавља или интерактивну динамичку сцену, која нуди широк спектар практичних примена.

Гоогле уводи иновативну генеративну динамику слике која симулира динамичке сцене у статичним сликама

У основи ове пионирске технологије је моделирање простора слике пре динамике сцене. Циљ је да се створи свеобухватно разумевање како се објекти и елементи унутар слике могу понашати када су подвргнути различитим динамичким интеракцијама. Ово разумевање се онда може користити за ефикасну симулацију одговора динамике објекта на интеракције корисника.

Кључна карактеристика ове технологије је могућност генерисања бешавних видео записа. Користећи простор слике пре динамике сцене, Гоогле-ов систем може да екстраполира и прошири кретање елемената унутар слике, трансформишући је у задивљујућу и континуирану видео петљу. Ова функционалност отвара бројне креативне могућности за креаторе садржаја и дизајнере.

У раду је представљен приступ моделирању простора слике претходно заснован на динамици сцене, који се учи из колекције путања кретања екстрахованих из стварних видео секвенци које садрже природно, осцилирајуће кретање као што су дрвеће, цвеће, свеће и одећа која дува на ветру. . Обучени модел користи фреквентно координисан процес узорковања дифузије да би предвидео дугорочну репрезентацију кретања по пикселу у Фуријеовом домену, коју они називају неуралном стохастичком текстуром кретања. Ова репрезентација се може конвертовати у густе путање кретања које обухватају цео видео.

Технологија омогућава корисницима да реално комуницирају са објектима унутар статичних слика. Симулацијом одговора динамике објеката на узбуђење корисника, Гуглов систем дозвољава импресивна и интерактивна искуства унутар слика. Ово има потенцијал да направи револуцију метаверзални простори и како корисници користе визуелни садржај.

Студија истражује моделирање генеративног претходног за кретање сцене слика-простор, тј. кретање свих пиксела у једној слици. Модел је обучен на аутоматски издвојеним трајекторијама кретања из велике колекције стварних видео секвенци. Условљен на улазној слици, обучени модел предвиђа неуралну стохастичку текстуру кретања: скуп коефицијената основе кретања који карактеришу путању сваког пиксела у будућност.

Основа ове иновације лежи у пажљиво обученом моделу. Гоогле-ов модел учи из огромног скупа података о путањама кретања извучених из стварних видео секвенци које садрже природно, осцилирајуће кретање. Ове секвенце обухватају сцене са елементима као што су дрвеће које се њише, цвеће које се креће, свеће трепере и одећа која се витла на ветру. Овај разнолик скуп података омогућава моделу да разуме широк спектар динамичких понашања.

Обим студије је ограничен на сцене из стварног света са природном, осцилирајућом динамиком, као што су дрвеће и цвеће које се креће на ветру. Као основне функције изабран је Фуријеов ред. Резултирајуће текстуре фреквенцијског простора се затим могу трансформисати у густе путање кретања пиксела дугог домета, које се могу користити за синтетизацију будућих кадрова, претварајући непокретне слике у реалистичне анимације.

Када је представљен са а једна слика, обучени модел користи фреквенцијски координисан процес дифузионог узорковања. Овај процес предвиђа дуготрајну репрезентацију кретања по пикселу у Фуријеовом домену, названу неурална стохастичка текстура кретања. Ова репрезентација се затим трансформише у густе путање кретања које обухватају цео видео. Заједно са модулом за рендеровање заснованим на слици, ове путање се могу искористити за различите практичне примене.

У поређењу са претходним у односу на необрађене РГБ пикселе, приоритети над кретањем снимају фундаменталнију, нижедимензионалну поддимензионалну структуру која ефикасно објашњава варијације у вредностима пиксела. Ово доводи до кохерентнијег дугорочног генерисања и прецизније контроле над анимацијама у поређењу са претходним методама које изводе анимација слике путем сирове видео синтезе.

Генерисани приказ покрета је погодан за бројне низводне апликације, као што је креирање бешавних видео записа у петљи, уређивање генерисаног покрета и омогућавање интерактивних динамичке слике, симулирајући одговор динамике објекта на силе које примењује корисник.

Прочитајте више сродних тема:

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов