Звіт про новини Технологія
Січень 24, 2023

VToonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео

Коротко

Революційний фреймворк VToonify був розроблений розробниками для забезпечення контрольованої передачі портретного відео високої роздільної здатності.

Для створення приголомшливих художніх портретів фреймворк використовує шари середньої та високої роздільної здатності StyleGAN.

Це дозволяє розширити існуючий StyleGAN моделі тоніфікації зображення на відео.

Дослідники з Наньянського технологічного університету мають представив нову структуру VToonify для створення керованої передачі портретного відео високої роздільної здатності. VToonify використовує шари середньої та високої роздільної здатності StyleGAN для відтворення високоякісних художніх портретів на основі мультимасштабних функцій вмісту, витягнутих кодувальником для кращого збереження деталей кадру. Експериментальні результати показують, що наш фреймворк може створювати відео незмінно високої якості та бажаної міміки без необхідності вирівнювання обличчя чи обмежень розміру кадру.

У результаті повністю згортка архітектури, яка приймає невирівняні обличчя у відео різного розміру, створює повні обличчя з органічними рухами. Фреймворк VToonify успадковує привабливі функції цих моделей для гнучкого керування кольором та інтенсивністю стилю. Він сумісний із існуючими моделями тоніфікації зображень на основі StyleGAN, щоб розширити їх до тоніфікації відео. У цій роботі представлено два екземпляри VToonify для передачі портретного стилю відео на основі колекції та зразка, відповідно, побудовані на Toonify та DualStyleGAN.

Vtoonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео

Масштабні експериментальні результати показують, що запропонована структура VToonify перевершує конкуруючі підходи у створенні художніх портретних фільмів із регульованими елементами керування стилем, які мають чудову якість і постійність у часі. Перевірте GitHub для більш докладної інформації.

Пов'язана стаття: OpenAI працює над створенням моделі ШІ для відео

Для того, щоб забезпечити контрольовану передачу портретного відео високої роздільної здатності, VToonify поєднує в собі переваги системи перекладу зображень і системи на основі StyleGAN.

(A) Для підтримки змінного розміру вхідних даних система перекладу зображень використовує повністю згорточні мережі. Тим не менш, під час навчання з нуля складно надати високу роздільну здатність і контрольований стиль.

(B) Платформа на основі StyleGAN, яка підтримує лише фіксований розмір зображення та втрату деталей, використовує попередньо навчену модель StyleGAN для високої роздільної здатності та контрольованої передачі стилю.

(C) Для створення повністю згорткової архітектури кодера-генератора, яка нагадує структуру трансляції зображень, наша гібридна система розширює StyleGAN, видаляючи її функцію введення фіксованого розміру та шари з низькою роздільною здатністю.

Щоб зберегти деталі кадру, розробники навчають кодер витягувати багатомасштабні функції вмісту з вхідного кадру як додаткову умову вмісту. VToonify успадковує гнучкість керування стилем моделі StyleGAN, поміщаючи її в генератор для дистиляції як своїх даних, так і моделі.

Vtoonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео
Пов'язана стаття: Lambda Labs анонсувала мікшер зображень штучного інтелекту, який може поєднувати до п’яти зображень

Фреймворк VToonify успадковує привабливі характеристики для гнучкого керування стилем від поточних моделей тоонізації зображень на основі StyleGAN і сумісний з ними, щоб розширити їх до відео тонізація. Наш VToonify пропонує наступне, використовуючи модель DualStyleGAN як основу StyleGAN:

  • Передача стилю від зразкових структур;
  • Модифікація ступеня стилю;
  • Передача кольорового стилю за зразками.
Vtoonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео
Для дистиляції StyleGAN розробники порівнюють дві магістралі Toonify і DualStyleGAN, а також базову лінію перекладу зображення з високою роздільною здатністю Pix2pixHD. VToonify-T і VToonify-D перевершують свої порівняльні магістралі, Toonify і DualStyleGAN, з точки зору стилізації всього відео, зберігаючи ту саму високу якість і візуальні елементи, що й магістралі для кожного окремого кадру. VToonify-T, наприклад, наслідує Toonify, щоб надати сильного ефекту стилю, такого як фіолетове волосся в стилі Arcane. VToonify-D, з іншого боку, краще справляється зі збереженням рис обличчя. Pix2pixHD має мерехтіння та артефакти порівняно з VToonify-D.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше

Засновників гаманця Samourai Wallet звинувачують у сприянні угодам у Darknet на суму 2 мільярди доларів

Занепокоєння засновників гаманця Samourai Wallet є помітною невдачею для галузі, підкреслюючи постійне...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
AltLayer вступає в другу фазу своєї ініціативи щодо ставки, представляючи токен reALT
ринки Звіт про новини Технологія
AltLayer вступає в другу фазу своєї ініціативи щодо ставки, представляючи токен reALT
Травень 2, 2024
Мережа BNB опублікувала звіт за 1 квартал 2024 року, у якому відзначається зниження втрати вартості на 55.8%, тоді як BSC TVL зросла на 70.8%
ринки Звіт про новини Технологія
Мережа BNB опублікувала звіт за 1 квартал 2024 року, у якому відзначається зниження втрати вартості на 55.8%, тоді як BSC TVL зросла на 70.8%
Травень 2, 2024
Kaia від Naver і Kakao: нова азіатська електростанція блокчейнів, готова підірвати глобальні ринки криптовалют
Business Софтвер Розповіді та огляди Технологія
Kaia від Naver і Kakao: нова азіатська електростанція блокчейнів, готова підірвати глобальні ринки криптовалют
Травень 2, 2024
Aave Labs представляє пропозицію «Aave 2030», включаючи запуск протоколу Aave V4
Business Звіт про новини Технологія
Aave Labs представляє пропозицію «Aave 2030», включаючи запуск протоколу Aave V4
Травень 2, 2024
CRYPTOMERIA LABS PTE. LTD.