Gener 24, 2023

VToonify: un model d'IA en temps real per generar vídeos de retrats artístics

Publicat: 24 de gener de 2023 a les 10:20 Actualitzat: 24 de gener de 2023 a les 9:51

En breu

Els desenvolupadors van desenvolupar un marc revolucionari VToonify per oferir transferències controlades i d'alta resolució d'estil de vídeo retrat.

Per produir retrats artístics impressionants, el marc fa ús de les capes de mitjana i alta resolució de StyleGAN.

Permet l'extensió de l'existent basat en StyleGAN models de tonificació de la imatge al vídeo.

Els investigadors de la Universitat Tecnològica de Nanyang ho han fet va introduir un nou marc VToonify per generar una transferència controlable d'estil de vídeo retrat d'alta resolució. VToonify aprofita les capes de resolució mitjana i alta de StyleGAN per representar retrats artístics d'alta qualitat basats en les funcions de contingut multiescala extretes per un codificador per preservar millor els detalls del marc. Els resultats experimentals mostren que el nostre marc pot generar vídeos amb una qualitat constant i les expressions facials desitjades sense necessitat d'alinear la cara ni de restriccions de mida de marc.

Com a resultat, una arquitectura totalment convolucional que accepta cares no alineades en vídeos de diferents mides produeix cares completes amb moviments orgànics. El marc de VToonify hereta característiques atractives d'aquests models per a un control d'estil flexible sobre el color i la intensitat. És compatible amb els models existents de tonificació d'imatges basats en StyleGAN per estendre'ls a la tonificació de vídeo. Aquest treball presenta dues instàncies de VToonify per a la transferència d'estil de vídeo de retrat basada en col·leccions i exemplars, respectivament, basades en Toonify i DualStyleGAN.

Vtoonify: un model d'IA en temps real per generar vídeos de retrats artístics

Amplis descobriments experimentals mostren que el marc VToonify proposat supera els enfocaments competitius en la producció de pel·lícules de retrats artístics amb controls d'estil ajustables que són d'excel·lent qualitat i coherents temporalment. Comproveu GitHub per a més detalls.

Article relacionat: OpenAI està treballant en la creació d'un model d'IA per a vídeo

Per tal de proporcionar una transferència controlable d'estil de vídeo retrat d'alta resolució, VToonify combina els avantatges del marc de traducció d'imatges i el marc basat en StyleGAN.

(A) Per suportar una mida d'entrada variable, un sistema de traducció d'imatges utilitza xarxes totalment convolucionals. No obstant això, és difícil impartir un estil controlat i d'alta resolució quan s'ensenya des de zero.

(B) El marc basat en StyleGAN, que només admet pèrdues de detall i mida d'imatge fixa, utilitza el model StyleGAN prèviament entrenat per a una transferència d'estil controlable i d'alta resolució.

(C) Per tal de crear una arquitectura de generador de codificadors completament convolucionals que s'assembla a la del marc de traducció d'imatges, el nostre sistema híbrid amplia StyleGAN eliminant la seva característica d'entrada de mida fixa i les capes de baixa resolució.

Per tal de preservar els detalls del marc, els desenvolupadors entrenen un codificador per extreure característiques de contingut multiescala del marc d'entrada com a condició de contingut addicional. VToonify hereta la flexibilitat de control d'estil del model StyleGAN posant-lo al generador per destil·lar tant les seves dades com el model.

Article relacionat: Lambda Labs va anunciar un mesclador d'imatges d'IA que pot combinar fins a cinc imatges

El marc de VToonify hereta les característiques atractives per al control d'estil flexible dels models actuals de tonificació d'imatges basats en StyleGAN i és compatible amb ells per ampliar-los a vídeo tonificació. El nostre VToonify ofereix el següent utilitzant el model DualStyleGAN com a base StyleGAN:

Transferència d'estil des d'estructures basades en exemplars;
Modificació del grau d'estil;
Transferència d'estil de color basat en exemplars.

Llegeix més sobre AI:

etiquetes:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.

més articles

Damir Yalalov