24 janvier 2023

VToonify : un modèle d'IA en temps réel pour générer des vidéos de portraits artistiques

Publié : 24 janvier 2023 à 10h20 Mise à jour : 24 janvier 2023 à 9h51

En bref

Un cadre révolutionnaire VToonify a été développé par les développeurs pour fournir des transferts de style vidéo portrait contrôlés et haute résolution.

Pour produire de superbes portraits artistiques, le cadre utilise les couches moyenne et haute résolution de StyleGAN.

Il permet l'extension des systèmes existants basés sur StyleGAN modèles de toonification d'image à la vidéo.

Des chercheurs de l'Université technologique de Nanyang ont introduit un nouveau framework VToonify pour générer un transfert de style vidéo portrait haute résolution contrôlable. VToonify exploite les couches moyenne et haute résolution de StyleGAN pour rendre des portraits artistiques de haute qualité basés sur les fonctionnalités de contenu à plusieurs échelles extraites par un encodeur afin de mieux préserver les détails du cadre. Les résultats expérimentaux montrent que notre cadre peut générer des vidéos avec des expressions faciales toujours de haute qualité et souhaitées sans avoir besoin d'alignement du visage ou de restrictions de taille d'image.

En conséquence, une architecture entièrement convolutive qui accepte des visages non alignés dans des vidéos de différentes tailles produit des visages complets avec des mouvements organiques. Le cadre VToonify hérite des fonctionnalités attrayantes de ces modèles pour un contrôle de style flexible sur la couleur et l'intensité. Il est compatible avec les modèles de toonification d'image existants basés sur StyleGAN pour les étendre à la toonification vidéo. Ce travail présente deux instanciations de VToonify pour le transfert de style vidéo portrait basé sur la collection et basé sur l'exemple, respectivement, construit sur Toonify et DualStyleGAN.

Vtoonify : un modèle d'IA en temps réel pour générer des vidéos de portraits artistiques

De nombreuses découvertes expérimentales montrent que le cadre VToonify proposé surpasse les approches concurrentes dans la production de films de portraits artistiques avec des contrôles de style ajustables d'excellente qualité et cohérents dans le temps. Vérifier GitHub pour plus de détails.

Article connexe: OpenAI travaille à la création d'un modèle d'IA pour la vidéo

Afin de fournir un transfert de style vidéo portrait haute résolution contrôlable, VToonify combine les avantages du cadre de traduction d'image et du cadre basé sur StyleGAN.

(A) Pour prendre en charge la taille d'entrée variable, un système de traduction d'image utilise des réseaux entièrement convolutionnels. Il est néanmoins difficile de transmettre un style haute résolution et contrôlé lors de l'enseignement à partir de zéro.

(B) Le cadre basé sur StyleGAN, qui ne prend en charge que la taille d'image fixe et les pertes de détails, utilise le modèle StyleGAN pré-formé pour un transfert de style haute résolution et contrôlable.

(C) Afin de créer une architecture d'encodeur-générateur complètement convolutive ressemblant à celle du cadre de traduction d'image, notre système hybride étend StyleGAN en supprimant sa fonction d'entrée de taille fixe et ses couches basse résolution.

Afin de préserver les détails de la trame, les développeurs forment un encodeur pour extraire les caractéristiques de contenu à plusieurs échelles de la trame d'entrée en tant que condition de contenu supplémentaire. VToonify hérite de la flexibilité de contrôle de style du modèle StyleGAN en le mettant dans le générateur pour distiller à la fois ses données et son modèle.

Article connexe: Lambda Labs a annoncé un mélangeur d'images AI qui peut combiner jusqu'à cinq images

Le framework VToonify hérite des caractéristiques attrayantes pour un contrôle de style flexible des modèles actuels de toonification d'image basés sur StyleGAN et est compatible avec eux pour les étendre à vidéo toonification. Notre VToonify propose les éléments suivants en utilisant le modèle DualStyleGAN comme base StyleGAN :

Transfert de style à partir de structures basées sur des exemplaires ;
Modification du degré de style ;
Transfert de style de couleur basé sur des exemplaires.

En savoir plus sur l'IA :

Mots clés:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.

Plus d'articles

Damir Yalalov