Звіт про новини Технологія
Вересень 19, 2023

Google представляє інноваційну генеративну динаміку зображень, яка імітує динамічні сцени в статичних зображеннях

Google представив a Генеративна динаміка зображення, новий підхід дозволяє трансформувати a одне статичне зображення в безперебійне циклічне відео або інтерактивна динамічна сцена, що пропонує широкий спектр практичних застосувань.

Google представляє інноваційну генеративну динаміку зображень, яка імітує динамічні сцени в статичних зображеннях

В основі цієї новаторської технології лежить моделювання простору зображення перед динамікою сцени. Мета полягає в тому, щоб створити всебічне розуміння того, як об’єкти та елементи всередині зображення можуть поводитися під час різних динамічних взаємодій. Це розуміння потім можна використовувати для ефективного моделювання реакції динаміки об’єкта на взаємодію користувача.

Ключовою особливістю цієї технології є можливість генерувати безперебійне циклічне відео. Використовуючи простір зображення перед динамікою сцени, система Google може екстраполювати та розширити рух елементів у зображенні, перетворюючи його на захоплюючий безперервний цикл відео. Ця функція відкриває численні творчі можливості для творців і дизайнерів контенту.

У статті представлено підхід до моделювання попереднього простору зображення на основі динаміки сцени, яку вивчають із колекції траєкторій руху, вилучених із реальних відеопослідовностей, що містять природні коливальні рухи, такі як дерева, квіти, свічки та одяг, що розвівається на вітрі. . Навчена модель використовує частотно-координований процес дискретизації дифузії для прогнозування піксельного довгострокового представлення руху в області Фур’є, яку вони називають нейронною стохастичною текстурою руху. Це представлення можна перетворити на щільні траєкторії руху, які охоплюють все відео.

Технологія дозволяє користувачам реалістично взаємодіяти з об’єктами в статичних зображеннях. Система Google дозволяє моделювати реакцію динаміки об’єкта на хвилювання користувача захоплюючий та інтерактивний досвід в межах зображень. Це має потенціал для революції простори метавсесвіту і як користувачі взаємодіють із візуальним вмістом.

У дослідженні досліджується моделювання генеративного пріоритету для руху сцени в просторі зображення, тобто руху всіх пікселів в одному зображенні. Модель навчається на автоматично витягнутих траєкторіях руху з великої колекції реальних відеорядів. На основі вхідного зображення навчена модель передбачає нейронну стохастичну текстуру руху: набір коефіцієнтів основи руху, які характеризують траєкторію кожного пікселя в майбутньому.

Основою цієї інновації є ретельно навчена модель. Модель Google вивчає величезний набір даних траєкторій руху, витягнутих із реальних відеопослідовностей із природним коливальним рухом. Ці послідовності включають сцени з такими елементами, як колихання дерев, рух квітів, мерехтіння свічок і одяг, що розвівається на вітрі. Цей різноманітний набір даних дає змогу моделі зрозуміти широкий діапазон динамічної поведінки.

Обсяг дослідження обмежений реальними сценами з природною коливальною динамікою, такими як дерева та квіти, що рухаються на вітрі. В якості базисних функцій обрано ряд Фур'є. Отримані частотно-просторові текстури потім можна перетворити на щільні далекі траєкторії руху пікселів, які можна використовувати для синтезу майбутніх кадрів, перетворюючи нерухомі зображення на реалістичну анімацію.

Коли представлено a єдине зображення, навчена модель використовує частотно-координований процес дискретизації дифузії. Цей процес передбачає попіксельне довготривале представлення руху в області Фур’є, що називається нейронною стохастичною текстурою руху. Потім це представлення перетворюється на щільні траєкторії руху, які охоплюють все відео. У поєднанні з модулем візуалізації на основі зображень ці траєкторії можна використовувати для різних практичних застосувань.

Порівняно з пріоритетами над необробленими пікселями RGB, пріоритети над захопленням руху охоплюють більш фундаментальну структуру менших розмірів під розмірами, яка ефективно пояснює варіації значень пікселів. Це призводить до більш узгодженої довгострокової генерації та більш точного контролю над анімацією порівняно з попередніми методами, які виконують анімація зображення за допомогою синтезу необробленого відео.

Згенероване представлення руху є зручним для ряду подальших програм, таких як створення безперервних циклічних відео, редагування згенерованого руху та ввімкнення інтерактивних динамічні зображення, що моделює реакцію динаміки об’єкта на зусилля, прикладені користувачем.

Читайте більше пов’язаних тем:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Pyth Network розгортає Pull Oracle на Solana, надаючи розробникам доступ до цін Oracle
Звіт про новини Технологія
Pyth Network розгортає Pull Oracle на Solana, надаючи розробникам доступ до цін Oracle
17 Червня, 2024.
ШІ та ігрові партнери Aethir Airdrop Токени власникам вузла перевірки
Featured Звіт про новини Технологія
ШІ та ігрові партнери Aethir Airdrop Токени власникам вузла перевірки
17 Червня, 2024.
Notional Finance повністю припинить підтримку V2 до кінця липня, закликає користувачів перейти на V3
Звіт про новини Технологія
Notional Finance повністю припинить підтримку V2 до кінця липня, закликає користувачів перейти на V3
17 Червня, 2024.
Tether запускає платформу Alloy за підтримки Tether Gold і представляє перший токен aUSD₮
ринки Звіт про новини Технологія
Tether запускає платформу Alloy за підтримки Tether Gold і представляє перший токен aUSD₮
17 Червня, 2024.
CRYPTOMERIA LABS PTE. LTD.