VToonify: модель искусственного интеллекта в реальном времени для создания художественных портретных видео.
Коротко
Революционная структура VToonify была разработана разработчиками для обеспечения контролируемой передачи видео в портретном стиле с высоким разрешением.
Для создания потрясающих художественных портретов фреймворк использует слои StyleGAN со средним и высоким разрешением.
Это позволяет расширить существующий на основе StyleGAN модели тонирования изображений к видео.
Исследователи из Наньянского технологического университета представил новую структуру VToonify для создания управляемой передачи портретного видео в высоком разрешении. VToonify использует слои StyleGAN со средним и высоким разрешением для визуализации высококачественных художественных портретов на основе мультимасштабных функций содержимого, извлеченных кодировщиком, для лучшего сохранения деталей кадра. Экспериментальные результаты показывают, что наша платформа может создавать видео с неизменно высоким качеством и желаемым выражением лица без необходимости выравнивания лица или ограничений размера кадра.
В результате полностью сверточная архитектура, которая допускает несовмещенные лица в видеороликах разного размера, создает полные лица с органичными движениями. Фреймворк VToonify унаследовал привлекательные черты этих моделей для гибкого управления стилем цвета и интенсивности. Он совместим с существующими моделями тонирования изображений на основе StyleGAN, чтобы расширить их до тонификации видео. В этой работе представлены два экземпляра VToonify для передачи стиля портретного видео на основе коллекции и на основе образцов, соответственно, основанные на Toonify и DualStyleGAN.
Обширные экспериментальные данные показывают, что предложенная структура VToonify превосходит конкурирующие подходы в создании художественных портретных фильмов с регулируемыми элементами управления стилем, которые отличаются превосходным качеством и согласованностью во времени. Чек об оплате GitHub Больше подробностей.
Связанная статья: OpenAI работает над созданием модели ИИ для видео |
Чтобы обеспечить управляемую передачу стиля портретного видео с высоким разрешением, VToonify сочетает в себе преимущества платформы перевода изображений и платформы на основе StyleGAN.
(A) Для поддержки переменного размера ввода система перевода изображений использует полностью сверточные сети. Тем не менее, при обучении с нуля сложно передать стиль высокого разрешения и контроля.
(B) Платформа на основе StyleGAN, которая поддерживает только фиксированный размер изображения и потерю деталей, использует предварительно обученную модель StyleGAN для передачи стилей с высоким разрешением и управляемостью.
(C) Чтобы создать полностью сверточную архитектуру кодировщика-генератора, напоминающую структуру перевода изображений, наша гибридная система расширяет StyleGAN, удаляя его входную функцию фиксированного размера и слои с низким разрешением.
Чтобы сохранить детали кадра, разработчики обучают кодировщик извлекать функции многомасштабного содержимого из входного кадра в качестве дополнительного условия содержимого. VToonify наследует гибкость управления стилем модели StyleGAN, помещая его в генератор для очистки как его данных, так и модели.
Связанная статья: Lambda Labs анонсировала микшер изображений с искусственным интеллектом, который может объединять до пяти изображений. |
Платформа VToonify унаследовала привлекательные характеристики гибкого управления стилями от текущих моделей тоонизации изображений на основе StyleGAN и совместима с ними, что позволяет расширить их до видео тоонификация. Наш VToonify предлагает следующее, используя модель DualStyleGAN в качестве основы StyleGAN:
- Перенос стиля из образцовых структур;
- Модификация степени стиля;
- Передача цветового стиля на основе образцов.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.