VToonify: En AI-model i realtid til generering af kunstneriske portrætvideoer
Kort sagt
En revolutionerende VToonify-ramme blev udviklet af udviklere til at levere kontrollerede, højopløselige portrætvideostiloverførsler.
For at producere fantastiske kunstneriske portrætter gør rammen brug af StyleGANs mellem- og højopløselige lag.
Det tillader udvidelse af eksisterende StyleGAN-baseret modeller for billedvisning til video.
Det har forskere fra Nanyang Technological University introducerede en ny VToonify-ramme til at generere kontrollerbar højopløsnings portrætvideostiloverførsel. VToonify udnytter mellem- og højopløsningslagene i StyleGAN til at gengive kunstneriske portrætter af høj kvalitet baseret på multi-skala indholdsfunktioner udtrukket af en encoder for bedre at bevare rammedetaljer. Eksperimentelle resultater viser, at vores framework kan generere videoer med konsekvent høj kvalitet og ønskede ansigtsudtryk uden behov for ansigtsjustering eller begrænsninger i rammestørrelse.
Som et resultat heraf producerer en fuldt foldet arkitektur, der accepterer ikke-justerede ansigter i videoer af forskellige størrelser, komplette ansigter med organiske bevægelser. VToonify framework arver tiltalende funktioner i disse modeller for fleksibel stilkontrol på farve og intensitet. Den er kompatibel med eksisterende StyleGAN-baserede billedvisningsmodeller for at udvide dem til videovisning. Dette arbejde introducerer to eksemplarer af VToonify til henholdsvis samlingsbaseret og eksemplarbaseret portrætvideostiloverførsel, bygget på Toonify og DualStyleGAN.
Omfattende eksperimentelle resultater viser, at den foreslåede VToonify-ramme overgår konkurrerende tilgange til at producere kunstneriske portrætfilm med justerbare stilkontroller, der er af fremragende kvalitet og tidsmæssigt konsistente. Kontrollere GitHub for flere detaljer.
Relateret artikel: OpenAI arbejder på at skabe en AI-model til video |
For at give en kontrollerbar højopløsnings portrætvideostiloverførsel kombinerer VToonify fordelene ved billedoversættelsesrammerne og den StyleGAN-baserede ramme.
(A) For at understøtte variabel inputstørrelse bruger et billedoversættelsessystem fuldt konvolutionerende netværk. Det er ikke desto mindre udfordrende at formidle høj opløsning og kontrolleret stil, når man underviser fra bunden.
(B) StyleGAN-baseret framework, som kun understøtter fast billedstørrelse og detaljetab, bruger den fortrænede StyleGAN-model til høj opløsning og kontrollerbar stiloverførsel.
(C) For at skabe en fuldstændig konvolutionerende encoder-generator-arkitektur, der ligner den i billedoversættelsesrammerne, udvider vores hybridsystem StyleGAN ved at slette dens input-funktion med fast størrelse og lavopløsningslag.
For at bevare rammedetaljer træner udviklere en koder til at udtrække multi-skala indholdsfunktioner fra inputrammen som en ekstra indholdsbetingelse. VToonify arver StyleGAN-modellens stilkontrolfleksibilitet ved at sætte den ind i generatoren for at destillere både dens data og model.
VToonify framework arver de tiltalende egenskaber for fleksibel stilkontrol fra de nuværende StyleGAN-baserede billedtonification-modeller og er kompatibel med dem for at udvide dem til video tonificering. Vores VToonify tilbyder følgende ved at bruge DualStyleGAN-modellen som StyleGAN-grundlaget:
- Overførsel af stil fra eksemplariske strukturer;
- Ændring af stilgrad;
- Overførsel af farvestil baseret på eksemplarer.
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.