Rapport de nouvelles Technologie
24 janvier 2023

VToonify : un modèle d'IA en temps réel pour générer des vidéos de portraits artistiques

En bref

Un cadre révolutionnaire VToonify a été développé par les développeurs pour fournir des transferts de style vidéo portrait contrôlés et haute résolution.

Pour produire de superbes portraits artistiques, le cadre utilise les couches moyenne et haute résolution de StyleGAN.

Il permet l'extension des systèmes existants basés sur StyleGAN modèles de toonification d'image à la vidéo.

Des chercheurs de l'Université technologique de Nanyang ont introduit un nouveau framework VToonify pour générer un transfert de style vidéo portrait haute résolution contrôlable. VToonify exploite les couches moyenne et haute résolution de StyleGAN pour rendre des portraits artistiques de haute qualité basés sur les fonctionnalités de contenu à plusieurs échelles extraites par un encodeur afin de mieux préserver les détails du cadre. Les résultats expérimentaux montrent que notre cadre peut générer des vidéos avec des expressions faciales toujours de haute qualité et souhaitées sans avoir besoin d'alignement du visage ou de restrictions de taille d'image.

En conséquence, une architecture entièrement convolutive qui accepte des visages non alignés dans des vidéos de différentes tailles produit des visages complets avec des mouvements organiques. Le cadre VToonify hérite des fonctionnalités attrayantes de ces modèles pour un contrôle de style flexible sur la couleur et l'intensité. Il est compatible avec les modèles de toonification d'image existants basés sur StyleGAN pour les étendre à la toonification vidéo. Ce travail présente deux instanciations de VToonify pour le transfert de style vidéo portrait basé sur la collection et basé sur l'exemple, respectivement, construit sur Toonify et DualStyleGAN.

Vtoonify : un modèle d'IA en temps réel pour générer des vidéos de portraits artistiques

De nombreuses découvertes expérimentales montrent que le cadre VToonify proposé surpasse les approches concurrentes dans la production de films de portraits artistiques avec des contrôles de style ajustables d'excellente qualité et cohérents dans le temps. Vérifier GitHub pour plus de détails.

Article connexe: OpenAI travaille à la création d'un modèle d'IA pour la vidéo

Afin de fournir un transfert de style vidéo portrait haute résolution contrôlable, VToonify combine les avantages du cadre de traduction d'image et du cadre basé sur StyleGAN.

(A) Pour prendre en charge la taille d'entrée variable, un système de traduction d'image utilise des réseaux entièrement convolutionnels. Il est néanmoins difficile de transmettre un style haute résolution et contrôlé lors de l'enseignement à partir de zéro.

(B) Le cadre basé sur StyleGAN, qui ne prend en charge que la taille d'image fixe et les pertes de détails, utilise le modèle StyleGAN pré-formé pour un transfert de style haute résolution et contrôlable.

(C) Afin de créer une architecture d'encodeur-générateur complètement convolutive ressemblant à celle du cadre de traduction d'image, notre système hybride étend StyleGAN en supprimant sa fonction d'entrée de taille fixe et ses couches basse résolution.

Afin de préserver les détails de la trame, les développeurs forment un encodeur pour extraire les caractéristiques de contenu à plusieurs échelles de la trame d'entrée en tant que condition de contenu supplémentaire. VToonify hérite de la flexibilité de contrôle de style du modèle StyleGAN en le mettant dans le générateur pour distiller à la fois ses données et son modèle.

Vtoonify : un modèle d'IA en temps réel pour générer des vidéos de portraits artistiques
Article connexe: Lambda Labs a annoncé un mélangeur d'images AI qui peut combiner jusqu'à cinq images

Le framework VToonify hérite des caractéristiques attrayantes pour un contrôle de style flexible des modèles actuels de toonification d'image basés sur StyleGAN et est compatible avec eux pour les étendre à vidéo toonification. Notre VToonify propose les éléments suivants en utilisant le modèle DualStyleGAN comme base StyleGAN :

  • Transfert de style à partir de structures basées sur des exemplaires ;
  • Modification du degré de style ;
  • Transfert de style de couleur basé sur des exemplaires.
Vtoonify : un modèle d'IA en temps réel pour générer des vidéos de portraits artistiques
Pour la distillation StyleGAN, les développeurs comparent deux backbones Toonify et DualStyleGAN, ainsi que la ligne de base de traduction image à image haute résolution Pix2pixHD. VToonify-T et VToonify-D surpassent leurs backbones comparables, Toonify et DualStyleGAN, en termes de stylisation de l'intégralité de la vidéo tout en conservant la même haute qualité et les mêmes éléments visuels que les backbones de chaque image individuelle. VToonify-T, par exemple, suit Toonify pour imposer un effet de style fort, comme les cheveux violets dans le style Arcane. VToonify-D, d'autre part, fait un meilleur travail de maintien des traits du visage. Pix2pixHD a des scintillements et des artefacts par rapport à VToonify-D.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus

Les fondateurs de Samourai Wallet accusés d'avoir facilité 2 milliards de dollars de transactions sur le Darknet

L'appréhension des fondateurs de Samourai Wallet représente un revers notable pour l'industrie, soulignant la persistance...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
AltLayer entre dans la deuxième phase de son initiative de jalonnement et présente le jeton reALT
Marchés Rapport de nouvelles Technologie
AltLayer entre dans la deuxième phase de son initiative de jalonnement et présente le jeton reALT
2 mai 2024
BNB Chain publie son rapport du premier trimestre 1 et met en évidence une réduction de 2024 % de sa perte de valeur, tandis que BSC TVL grimpe de 55.8 %
Marchés Rapport de nouvelles Technologie
BNB Chain publie son rapport du premier trimestre 1 et met en évidence une réduction de 2024 % de sa perte de valeur, tandis que BSC TVL grimpe de 55.8 %
2 mai 2024
Kaia de Naver et Kakao : la nouvelle centrale asiatique de la blockchain sur le point de perturber les marchés mondiaux de la cryptographie
La Brochure Logiciels Histoires et critiques Technologie
Kaia de Naver et Kakao : la nouvelle centrale asiatique de la blockchain sur le point de perturber les marchés mondiaux de la cryptographie
2 mai 2024
Aave Labs dévoile la proposition « Aave 2030 », incluant le lancement du protocole Aave V4
La Brochure Rapport de nouvelles Technologie
Aave Labs dévoile la proposition « Aave 2030 », incluant le lancement du protocole Aave V4
2 mai 2024
CRYPTOMERIA LABS PTE. LTD.