Nyhetsrapport Teknologi
Januari 24, 2023

VToonify: En AI-modell i realtid för att generera konstnärliga porträttvideor

I korthet

Ett revolutionerande VToonify-ramverk har utvecklats av utvecklare för att tillhandahålla kontrollerade, högupplösta porträttvideoformatsöverföringar.

För att producera fantastiska konstnärliga porträtt använder ramverket StyleGAN:s mellan- och högupplösta lager.

Det tillåter utökning av befintlig StyleGAN-baserad bildtonifieringsmodeller till video.

Forskare från Nanyang Technological University har introducerade ett nytt ramverk för VToonify för att generera kontrollerbar högupplöst överföring av porträttvideo. VToonify utnyttjar mellan- och högupplösta lager i StyleGAN för att återge högkvalitativa konstnärliga porträtt baserat på flerskaliga innehållsfunktioner som extraheras av en kodare för att bättre bevara ramdetaljer. Experimentella resultat visar att vårt ramverk kan generera videor med konsekvent hög kvalitet och önskade ansiktsuttryck utan behov av ansiktsjustering eller ramstorleksbegränsningar.

Som ett resultat producerar en helt konvolutionerande arkitektur som accepterar icke-justerade ansikten i videor av olika storlekar kompletta ansikten med organiska rörelser. VToonify-ramverket ärver tilltalande egenskaper hos dessa modeller för flexibel stilkontroll på färg och intensitet. Den är kompatibel med befintliga StyleGAN-baserade bildvisningsmodeller för att utöka dem till videovisning. Detta arbete introducerar två instansieringar av VToonify för samlingsbaserad respektive exemplarbaserad porträttvideostilsöverföring, byggd på Toonify och DualStyleGAN.

Vtoonify: En AI-modell i realtid för att generera konstnärliga porträttvideor

Omfattande experimentella rön visar att det föreslagna VToonify-ramverket överträffar konkurrerande metoder när det gäller att producera konstnärliga porträttfilmer med justerbara stilkontroller som är av utmärkt kvalitet och tidsmässigt konsekventa. Kontrollera GitHub för mer detaljer.

Relaterad artikel: OpenAI arbetar med att skapa en AI-modell för video

För att ge en kontrollerbar högupplöst porträttvideostilsöverföring, kombinerar VToonify fördelarna med bildöversättningsramverket och det StyleGAN-baserade ramverket.

(A) För att stödja variabel inmatningsstorlek använder ett bildöversättningssystem helt konvolutionerande nätverk. Det är dock utmanande att förmedla högupplöst och kontrollerad stil när man undervisar från grunden.

(B) StyleGAN-baserat ramverk, som endast stöder fast bildstorlek och detaljförluster, använder den förtränade StyleGAN-modellen för högupplöst och kontrollerbar stilöverföring.

(C) För att skapa en helt konvolutionell kodar-generatorarkitektur som liknar bildöversättningsramverket, utökar vårt hybridsystem StyleGAN genom att ta bort dess inmatningsfunktion med fast storlek och lågupplösta lager.

För att bevara ramdetaljer tränar utvecklare en kodare för att extrahera flerskaliga innehållsfunktioner från inmatningsramen som ett ytterligare innehållsvillkor. VToonify ärver StyleGAN-modellens stilkontrollflexibilitet genom att lägga in den i generatorn för att destillera både dess data och modell.

Vtoonify: En AI-modell i realtid för att generera konstnärliga porträttvideor
Relaterad artikel: Lambda Labs tillkännagav en AI-bildmixer som kan kombinera upp till fem bilder

VToonify-ramverket ärver de tilltalande egenskaperna för flexibel stilkontroll från de nuvarande StyleGAN-baserade bildtonifieringsmodellerna och är kompatibel med dem för att utöka dem till video- tonifiering. Vår VToonify erbjuder följande med DualStyleGAN-modellen som StyleGAN-grunden:

  • Överföring av stil från exemplarbaserade strukturer;
  • Ändring av stilgrad;
  • Överföring av färgstil baserat på exemplar.
Vtoonify: En AI-modell i realtid för att generera konstnärliga porträttvideor
För StyleGAN-destillation jämför utvecklarna två ryggrader Toonify och DualStyleGAN, samt den högupplösta bild-till-bild-översättningsbaslinjen Pix2pixHD. VToonify-T och VToonify-D överträffar sina jämförbara ryggrader, Toonify och DualStyleGAN, när det gäller att stilisera hela videon samtidigt som de behåller samma höga kvalitet och visuella element som ryggraden för varje enskild bildruta. VToonify-T, till exempel, följer Toonify för att påtvinga en stark stileffekt, till exempel violett hår i Arcane-stilen. VToonify-D, å andra sidan, gör ett bättre jobb med att upprätthålla ansiktsdrag. Pix2pixHD har flimmer och artefakter jämfört med VToonify-D.

Läs mer om AI:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer

Samourai Wallet-grundare anklagade för att underlätta $2 miljarder i Darknet-erbjudanden

Uppfattningen av Samourai Wallet-grundarna representerar ett anmärkningsvärt bakslag för branschen, vilket understryker den ihållande ...

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
AltLayer går in i andra fasen av sitt insatsinitiativ, introducerar reALT Token
Marknader Nyhetsrapport Teknologi
AltLayer går in i andra fasen av sitt insatsinitiativ, introducerar reALT Token
Maj 2, 2024
BNB Chain släpper rapport för första kvartalet 1, lyfter fram 2024 % minskning av sin värdeförlust, medan BSC TVL stiger med 55.8 %
Marknader Nyhetsrapport Teknologi
BNB Chain släpper rapport för första kvartalet 1, lyfter fram 2024 % minskning av sin värdeförlust, medan BSC TVL stiger med 55.8 %
Maj 2, 2024
Naver och Kakaos Kaia: Det nya asiatiska blockchain-kraftverket redo att störa globala kryptomarknader
Företag Mjukvara Berättelser och recensioner Teknologi
Naver och Kakaos Kaia: Det nya asiatiska blockchain-kraftverket redo att störa globala kryptomarknader
Maj 2, 2024
Aave Labs presenterar "Aave 2030"-förslag inklusive lansering av Aave V4-protokoll
Företag Nyhetsrapport Teknologi
Aave Labs presenterar "Aave 2030"-förslag inklusive lansering av Aave V4-protokoll
Maj 2, 2024