VToonify: een real-time AI-model voor het genereren van artistieke portretvideo's
In het kort
Ontwikkelaars hebben een revolutionair VToonify-framework ontwikkeld om gecontroleerde video-overdracht in portretstijl met hoge resolutie te bieden.
Om verbluffende artistieke portretten te produceren, maakt het frame gebruik van StyleGAN's mid- en high-res lagen.
Het maakt de uitbreiding mogelijk van bestaande op StyleGAN gebaseerde modellen voor beeldtoonificatie naar video.
Onderzoekers van de Nanyang Technological University hebben dat gedaan introduceerde een nieuw VToonify-framework om beheersbare video-overdracht in portretstijl met hoge resolutie te genereren. VToonify maakt gebruik van de midden- en hoge resolutielagen van StyleGAN om artistieke portretten van hoge kwaliteit weer te geven op basis van de inhoudskenmerken op meerdere schalen die door een encoder worden geëxtraheerd om framedetails beter te behouden. Experimentele resultaten laten zien dat ons framework video's kan genereren met consistent hoge kwaliteit en gewenste gezichtsuitdrukkingen zonder dat gezichtsuitlijning of framegroottebeperkingen nodig zijn.
Het resultaat is dat een volledig convolutionele architectuur die niet-uitgelijnde gezichten in video's van verschillende groottes accepteert, complete gezichten met organische bewegingen produceert. VToonify-framework erft aantrekkelijke kenmerken van deze modellen voor flexibele stijlcontrole op kleur en intensiteit. Het is compatibel met bestaande op StyleGAN gebaseerde beeldtoonificatiemodellen om ze uit te breiden naar videotoonificatie. Dit werk introduceert twee instantiaties van VToonify voor respectievelijk collectie-gebaseerde en voorbeeld-gebaseerde portretvideostijloverdracht, gebaseerd op Toonify en DualStyleGAN.
Uitgebreide experimentele bevindingen tonen aan dat het voorgestelde VToonify-framework beter presteert dan concurrerende benaderingen bij het produceren van artistieke portretfilms met aanpasbare stijlcontroles die van uitstekende kwaliteit en temporeel consistent zijn. Controleren GitHub voor meer details.
Gerelateerd artikel: OpenAI werkt aan het maken van een AI-model voor video |
Om een beheersbare hoge-resolutie portretvideostijloverdracht te bieden, combineert VToonify de voordelen van het beeldvertalingsraamwerk en het op StyleGAN gebaseerde raamwerk.
(A) Ter ondersteuning van variabele invoergrootte gebruikt een beeldvertaalsysteem volledig convolutionele netwerken. Het is echter een uitdaging om een hoge resolutie en gecontroleerde stijl te geven als je vanaf het begin lesgeeft.
(B) Op StyleGAN gebaseerd raamwerk, dat alleen vaste beeldgrootte en detailverlies ondersteunt, gebruikt het vooraf getrainde StyleGAN-model voor beheersbare stijloverdracht met hoge resolutie.
(C) Om een volledig convolutionele encoder-generator-architectuur te creëren die lijkt op die van het raamwerk voor beeldvertaling, breidt ons hybride systeem StyleGAN uit door de invoerfunctie met vaste grootte en lagen met lage resolutie te verwijderen.
Om framedetails te behouden, trainen ontwikkelaars een encoder om multi-schaal inhoudskenmerken uit het invoerframe te extraheren als een aanvullende inhoudsvoorwaarde. VToonify erft de stijlcontroleflexibiliteit van het StyleGAN-model door het in de generator te plaatsen om zowel de gegevens als het model te destilleren.
Gerelateerd artikel: Lambda Labs heeft een AI-beeldmixer aangekondigd die tot vijf afbeeldingen kan combineren |
Het VToonify-framework erft de aantrekkelijke kenmerken voor flexibele stijlcontrole van de huidige op StyleGAN gebaseerde modellen voor beeldtoonificatie en is ermee compatibel om ze uit te breiden naar video- toonificatie. Onze VToonify biedt het volgende met het DualStyleGAN-model als StyleGAN-basis:
- Stijloverdracht van op voorbeelden gebaseerde structuren;
- Wijziging van stijlgraad;
- Overdracht van kleurstijl op basis van voorbeelden.
Lees meer over AI:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.