VToonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео
Коротко
Революційний фреймворк VToonify був розроблений розробниками для забезпечення контрольованої передачі портретного відео високої роздільної здатності.
Для створення приголомшливих художніх портретів фреймворк використовує шари середньої та високої роздільної здатності StyleGAN.
Це дозволяє розширити існуючий StyleGAN моделі тоніфікації зображення на відео.
Дослідники з Наньянського технологічного університету мають представив нову структуру VToonify для створення керованої передачі портретного відео високої роздільної здатності. VToonify використовує шари середньої та високої роздільної здатності StyleGAN для відтворення високоякісних художніх портретів на основі мультимасштабних функцій вмісту, витягнутих кодувальником для кращого збереження деталей кадру. Експериментальні результати показують, що наш фреймворк може створювати відео незмінно високої якості та бажаної міміки без необхідності вирівнювання обличчя чи обмежень розміру кадру.
У результаті повністю згортка архітектури, яка приймає невирівняні обличчя у відео різного розміру, створює повні обличчя з органічними рухами. Фреймворк VToonify успадковує привабливі функції цих моделей для гнучкого керування кольором та інтенсивністю стилю. Він сумісний із існуючими моделями тоніфікації зображень на основі StyleGAN, щоб розширити їх до тоніфікації відео. У цій роботі представлено два екземпляри VToonify для передачі портретного стилю відео на основі колекції та зразка, відповідно, побудовані на Toonify та DualStyleGAN.
Масштабні експериментальні результати показують, що запропонована структура VToonify перевершує конкуруючі підходи у створенні художніх портретних фільмів із регульованими елементами керування стилем, які мають чудову якість і постійність у часі. Перевірте GitHub для більш докладної інформації.
Пов'язана стаття: OpenAI працює над створенням моделі ШІ для відео |
Для того, щоб забезпечити контрольовану передачу портретного відео високої роздільної здатності, VToonify поєднує в собі переваги системи перекладу зображень і системи на основі StyleGAN.
(A) Для підтримки змінного розміру вхідних даних система перекладу зображень використовує повністю згорточні мережі. Тим не менш, під час навчання з нуля складно надати високу роздільну здатність і контрольований стиль.
(B) Платформа на основі StyleGAN, яка підтримує лише фіксований розмір зображення та втрату деталей, використовує попередньо навчену модель StyleGAN для високої роздільної здатності та контрольованої передачі стилю.
(C) Для створення повністю згорткової архітектури кодера-генератора, яка нагадує структуру трансляції зображень, наша гібридна система розширює StyleGAN, видаляючи її функцію введення фіксованого розміру та шари з низькою роздільною здатністю.
Щоб зберегти деталі кадру, розробники навчають кодер витягувати багатомасштабні функції вмісту з вхідного кадру як додаткову умову вмісту. VToonify успадковує гнучкість керування стилем моделі StyleGAN, поміщаючи її в генератор для дистиляції як своїх даних, так і моделі.
Пов'язана стаття: Lambda Labs анонсувала мікшер зображень штучного інтелекту, який може поєднувати до п’яти зображень |
Фреймворк VToonify успадковує привабливі характеристики для гнучкого керування стилем від поточних моделей тоонізації зображень на основі StyleGAN і сумісний з ними, щоб розширити їх до відео тонізація. Наш VToonify пропонує наступне, використовуючи модель DualStyleGAN як основу StyleGAN:
- Передача стилю від зразкових структур;
- Модифікація ступеня стилю;
- Передача кольорового стилю за зразками.
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.