Септември 19, 2023

Google представя новаторска генеративна динамика на изображението, която симулира динамични сцени в статични изображения

Публикувано: 19 септември 2023 г. в 4:21 ч. Актуализирано: 19 септември 2023 г. в 9:02 ч.

Редактирано и проверено на фактите: 19 септември 2023 г. в 4:21 ч

Google представи a Генеративна динамика на изображението, нов подход позволява трансформацията на a единично статично изображение в безпроблемно повтарящо се видео или интерактивна динамична сцена, предлагаща широк набор от практически приложения.

Google представя новаторска генеративна динамика на изображението, която симулира динамични сцени в статични изображения

В основата на тази пионерска технология е моделирането на изображение-пространство преди динамиката на сцената. Целта е да се създаде цялостно разбиране за това как обектите и елементите в изображението могат да се държат, когато са подложени на различни динамични взаимодействия. След това това разбиране може да се използва за ефективно симулиране на реакцията на динамиката на обекта към потребителските взаимодействия.

Основната характеристика на тази технология е възможността за генериране на безпроблемно повтарящи се видеоклипове. Чрез използване на пространството на изображението преди динамиката на сцената, системата на Google може да екстраполира и разшири движението на елементи в изображението, превръщайки го в завладяващ и непрекъснат видео цикъл. Тази функционалност отваря множество творчески възможности за създателите и дизайнерите на съдържание.

Статията представя подход за моделиране на предишно изображение-пространство въз основа на динамиката на сцената, която се научава от колекция от траектории на движение, извлечени от реални видео последователности, съдържащи естествено, осцилиращо движение като дървета, цветя, свещи и дрехи, развяващи се от вятъра . Обученият модел използва честотно координиран дифузионен процес на вземане на проби, за да предвиди дългосрочно представяне на движение на пиксел в домейна на Фурие, което те наричат невронна стохастична текстура на движение. Това представяне може да се преобразува в плътни траектории на движение, които обхващат цял видеоклип.

Технологията позволява на потребителите да взаимодействат реалистично с обекти в статични изображения. Чрез симулиране на реакцията на динамиката на обекта към възбуждането на потребителя, системата на Google позволява завладяващи и интерактивни преживявания в рамките на изображения. Това има потенциала да революционизира метавселени пространства и как потребителите се ангажират с визуално съдържание.

Проучването изследва моделирането на генеративен априор за движение на сцена в пространството на изображението, т.е. движението на всички пиксели в едно изображение. Моделът се обучава на автоматично извлечени траектории на движение от голяма колекция от реални видео последователности. Обусловен от входно изображение, обученият модел прогнозира невронна стохастична текстура на движение: набор от коефициенти на основа на движение, които характеризират траекторията на всеки пиксел в бъдещето.

Основата на тази иновация се крие в щателно обучен модел. Моделът на Google се учи от огромен набор от данни за траектории на движение, извлечени от реални видео поредици, включващи естествено, осцилиращо движение. Тези поредици включват сцени с елементи като люлеещи се дървета, движещи се цветя, мигащи свещи и развяващи се от вятъра дрехи. Този разнообразен набор от данни позволява на модела да разбере широк спектър от динамични поведения.

Обхватът на изследването е ограничен до сцени от реалния свят с естествена, осцилираща динамика, като дървета и цветя, движещи се от вятъра. Като базисни функции е избран редът на Фурие. Получените честотно-пространствени текстури могат след това да бъдат трансформирани в плътни траектории на движение на пиксели с голям обхват, които могат да се използват за синтезиране на бъдещи кадри, превръщайки неподвижни изображения в реалистични анимации.

Когато се представя с a единично изображение, обученият модел използва честотно координиран дифузионен процес на вземане на проби. Този процес прогнозира дългосрочно представяне на движение на пиксел в домейна на Фурие, наречено невронна стохастична текстура на движение. След това това представяне се трансформира в плътни траектории на движение, които обхващат цял видеоклип. В съчетание с модул за изобразяване, базиран на изображения, тези траектории могат да бъдат използвани за различни практически приложения.

В сравнение с приоритетите над необработените RGB пиксели, приоритетите над улавянето на движение улавят по-фундаментална, нискоразмерна подизмерна структура, която ефективно обяснява вариациите в стойностите на пикселите. Това води до по-кохерентно дългосрочно генериране и по-фин контрол върху анимациите в сравнение с предишните методи, които изпълняват анимация на изображението чрез необработен видео синтез.

Генерираното представяне на движение е удобно за редица приложения надолу по веригата, като например създаване на безпроблемно повтарящи се видеоклипове, редактиране на генерираното движение и активиране на интерактивни динамични изображения, симулиращ реакцията на динамиката на обекта към приложените от потребителя сили.

Прочетете още свързани теми:

Tags:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов