Звіт про новини Технологія
Січень 24, 2023

VToonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео

Коротко

Революційний фреймворк VToonify був розроблений розробниками для забезпечення контрольованої передачі портретного відео високої роздільної здатності.

Для створення приголомшливих художніх портретів фреймворк використовує шари середньої та високої роздільної здатності StyleGAN.

Це дозволяє розширити існуючий StyleGAN моделі тоніфікації зображення на відео.

Дослідники з Наньянського технологічного університету мають представив нову структуру VToonify для створення керованої передачі портретного відео високої роздільної здатності. VToonify використовує шари середньої та високої роздільної здатності StyleGAN для відтворення високоякісних художніх портретів на основі мультимасштабних функцій вмісту, витягнутих кодувальником для кращого збереження деталей кадру. Експериментальні результати показують, що наш фреймворк може створювати відео незмінно високої якості та бажаної міміки без необхідності вирівнювання обличчя чи обмежень розміру кадру.

У результаті повністю згортка архітектури, яка приймає невирівняні обличчя у відео різного розміру, створює повні обличчя з органічними рухами. Фреймворк VToonify успадковує привабливі функції цих моделей для гнучкого керування кольором та інтенсивністю стилю. Він сумісний із існуючими моделями тоніфікації зображень на основі StyleGAN, щоб розширити їх до тоніфікації відео. У цій роботі представлено два екземпляри VToonify для передачі портретного стилю відео на основі колекції та зразка, відповідно, побудовані на Toonify та DualStyleGAN.

Vtoonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео

Масштабні експериментальні результати показують, що запропонована структура VToonify перевершує конкуруючі підходи у створенні художніх портретних фільмів із регульованими елементами керування стилем, які мають чудову якість і постійність у часі. Перевірте GitHub для більш докладної інформації.

Пов'язана стаття: OpenAI працює над створенням моделі ШІ для відео

Для того, щоб забезпечити контрольовану передачу портретного відео високої роздільної здатності, VToonify поєднує в собі переваги системи перекладу зображень і системи на основі StyleGAN.

(A) Для підтримки змінного розміру вхідних даних система перекладу зображень використовує повністю згорточні мережі. Тим не менш, під час навчання з нуля складно надати високу роздільну здатність і контрольований стиль.

(B) Платформа на основі StyleGAN, яка підтримує лише фіксований розмір зображення та втрату деталей, використовує попередньо навчену модель StyleGAN для високої роздільної здатності та контрольованої передачі стилю.

(C) Для створення повністю згорткової архітектури кодера-генератора, яка нагадує структуру трансляції зображень, наша гібридна система розширює StyleGAN, видаляючи її функцію введення фіксованого розміру та шари з низькою роздільною здатністю.

Щоб зберегти деталі кадру, розробники навчають кодер витягувати багатомасштабні функції вмісту з вхідного кадру як додаткову умову вмісту. VToonify успадковує гнучкість керування стилем моделі StyleGAN, поміщаючи її в генератор для дистиляції як своїх даних, так і моделі.

Vtoonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео
Пов'язана стаття: Lambda Labs анонсувала мікшер зображень штучного інтелекту, який може поєднувати до п’яти зображень

Фреймворк VToonify успадковує привабливі характеристики для гнучкого керування стилем від поточних моделей тоонізації зображень на основі StyleGAN і сумісний з ними, щоб розширити їх до відео тонізація. Наш VToonify пропонує наступне, використовуючи модель DualStyleGAN як основу StyleGAN:

  • Передача стилю від зразкових структур;
  • Модифікація ступеня стилю;
  • Передача кольорового стилю за зразками.
Vtoonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео
Для дистиляції StyleGAN розробники порівнюють дві магістралі Toonify і DualStyleGAN, а також базову лінію перекладу зображення з високою роздільною здатністю Pix2pixHD. VToonify-T і VToonify-D перевершують свої порівняльні магістралі, Toonify і DualStyleGAN, з точки зору стилізації всього відео, зберігаючи ту саму високу якість і візуальні елементи, що й магістралі для кожного окремого кадру. VToonify-T, наприклад, наслідує Toonify, щоб надати сильного ефекту стилю, такого як фіолетове волосся в стилі Arcane. VToonify-D, з іншого боку, краще справляється зі збереженням рис обличчя. Pix2pixHD має мерехтіння та артефакти порівняно з VToonify-D.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Crypto Exchange Jupiter представить Jupiter Swap V3, Dynamic Slippage та інші ключові оновлення в найближчі тижні
ринки Звіт про новини Технологія
Crypto Exchange Jupiter представить Jupiter Swap V3, Dynamic Slippage та інші ключові оновлення в найближчі тижні
14 Червня, 2024.
Polygon дебютує як центр управління, що забезпечує єдиний прозорий інтерфейс для управління спільнотою
Звіт про новини Технологія
Polygon дебютує як центр управління, що забезпечує єдиний прозорий інтерфейс для управління спільнотою 
14 Червня, 2024.
Binance зареєструвала понад 30 мільйонів нових користувачів у 2024 році, активи клієнтів перевищили позначку в 100 мільярдів доларів
ринки Звіт про новини Технологія
Binance зареєструвала понад 30 мільйонів нових користувачів у 2024 році, активи клієнтів перевищили позначку в 100 мільярдів доларів
14 Червня, 2024.
Amazon підтримує стартапи Generative AI, інвестувавши 230 мільйонів доларів, виділяє 80 мільйонів доларів на свою другу програму AWS Generative AI Accelerator
Business Звіт про новини Технологія
Amazon підтримує стартапи Generative AI, інвестувавши 230 мільйонів доларів, виділяє 80 мільйонів доларів на свою другу програму AWS Generative AI Accelerator
14 Червня, 2024.
CRYPTOMERIA LABS PTE. LTD.