19 сентября, 2023

Google представляет инновационную генеративную динамику изображений, которая имитирует динамические сцены в статических изображениях

Опубликовано: 19 сентября 2023 г., 4:21 Обновлено: 19 сентября 2023 г., 9:02

Отредактировано и проверено: 19 сентября 2023 г., 4:21.

Google представила Генеративная динамика изображенийновый подход позволяет преобразовать одно статическое изображение в бесшовное зацикленное видео или интерактивную динамическую сцену, предлагающую широкий спектр практических применений.

Google представляет инновационную генеративную динамику изображений, которая имитирует динамические сцены в статических изображениях

В основе этой новаторской технологии лежит моделирование пространства изображения до динамики сцены. Цель состоит в том, чтобы создать полное понимание того, как объекты и элементы изображения могут вести себя при различных динамических взаимодействиях. Это понимание затем можно использовать для эффективного моделирования реакции динамики объекта на взаимодействие с пользователем.

Ключевой особенностью этой технологии является возможность создания плавного зацикливания видео. Используя пространство изображения, предшествующее динамике сцены, система Google может экстраполировать и расширять движение элементов изображения, превращая его в захватывающий и непрерывный видеоцикл. Эта функциональность открывает многочисленные творческие возможности для создателей контента и дизайнеров.

В статье представлен подход к моделированию априорного пространства изображения, основанный на динамике сцены, которая изучается из набора траекторий движения, извлеченных из реальных видеопоследовательностей, содержащих естественные, колебательные движения, такие как деревья, цветы, свечи и одежда, развевающаяся на ветру. . Обученная модель использует частотно-скоординированный процесс диффузионной выборки для прогнозирования попиксельного представления долгосрочного движения в области Фурье, которое они называют нейронной стохастической текстурой движения. Это представление можно преобразовать в плотные траектории движения, охватывающие все видео.

Технология позволяет пользователям реалистично взаимодействовать с объектами в статических изображениях. Имитируя реакцию динамики объекта на возбуждение пользователя, система Google позволяет захватывающий и интерактивный опыт внутри изображений. Это может произвести революцию пространства метавселенной и как пользователи взаимодействуют с визуальным контентом.

В исследовании изучается моделирование генеративного априора для движения сцены в пространстве изображения, то есть движения всех пикселей в одном изображении. Модель обучается на автоматически извлекаемых траекториях движения из большой коллекции реальных видеопоследовательностей. Обученная модель на основе входного изображения предсказывает нейронную стохастическую текстуру движения: набор коэффициентов основы движения, которые характеризуют траекторию каждого пикселя в будущее.

В основе этой инновации лежит тщательно обученная модель. Модель Google обучается на обширном наборе данных о траекториях движения, извлеченных из реальных видеопоследовательностей, демонстрирующих естественное колебательное движение. Эти эпизоды включают сцены с такими элементами, как покачивание деревьев, движение цветов, мерцание свечей и развевающаяся на ветру одежда. Этот разнообразный набор данных позволяет модели понимать широкий спектр динамического поведения.

Объем исследования ограничен реальными сценами с естественной, колеблющейся динамикой, такими как деревья и цветы, движущиеся на ветру. В качестве базисных функций выбран ряд Фурье. Полученные текстуры частотного пространства затем могут быть преобразованы в плотные траектории движения пикселей с большим радиусом действия, которые можно использовать для синтеза будущих кадров, превращая неподвижные изображения в реалистичную анимацию.

При предъявлении Одно изображениеобученная модель использует частотно-скоординированный процесс диффузионной выборки. Этот процесс прогнозирует попиксельное долговременное представление движения в области Фурье, называемое нейронной стохастической текстурой движения. Затем это представление преобразуется в плотные траектории движения, охватывающие все видео. В сочетании с модулем рендеринга на основе изображений эти траектории можно использовать для различных практических приложений.

По сравнению с априорами необработанных пикселей RGB, априоры с движением захватывают более фундаментальную, низкоразмерную подразмерную структуру, которая эффективно объясняет различия в значениях пикселей. Это приводит к более последовательной долгосрочной генерации и более детальному контролю над анимацией по сравнению с предыдущими методами, выполняющими анимация изображения через синтез сырого видео.

Сгенерированное представление движения удобно для ряда последующих приложений, таких как создание плавного зацикливания видео, редактирование сгенерированного движения и включение интерактивного режима. динамические изображения, моделируя реакцию динамики объекта на силы, приложенные пользователем.

Читайте другие связанные темы:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов