VToonify: realaus laiko AI modelis, skirtas meniniams portretiniams vaizdo įrašams kurti
Trumpai
Kūrėjai sukūrė revoliucinę VToonify sistemą, kuri užtikrintų kontroliuojamą, didelės raiškos portretų vaizdo įrašų stiliaus perkėlimą.
Norint sukurti nuostabius meninius portretus, rėmas naudoja StyleGAN vidutinės ir didelės raiškos sluoksnius.
Tai leidžia išplėsti esamą StyleGAN pagrįstą vaizdo tonizavimo modeliai į vaizdo įrašą.
Tyrėjai iš Nanyang technologijos universiteto pristatė naują VToonify sistemą generuoti valdomą didelės raiškos portreto vaizdo stiliaus perkėlimą. VToonify panaudoja vidutinės ir didelės raiškos StyleGAN sluoksnius, kad būtų atvaizduojami aukštos kokybės meniniai portretai, pagrįsti daugialypiais turinio funkcijomis, kurias išgauna koduotuvas, kad būtų geriau išsaugotos kadro detalės. Eksperimentiniai rezultatai rodo, kad mūsų sistema gali generuoti vaizdo įrašus su nuolat aukšta kokybe ir norimomis veido išraiškomis, nereikalaujant veido lygiavimo ar kadro dydžio apribojimų.
Dėl to visiškai konvoliucinė architektūra, kuri priima nesulygiuotus veidus įvairaus dydžio vaizdo įrašuose, sukuria pilnus veidus su organiškais judesiais. VToonify sistema paveldi patrauklias šių modelių savybes, kad būtų galima lanksčiai valdyti spalvą ir intensyvumą. Jis suderinamas su esamais StyleGAN pagrįstais vaizdo tonizavimo modeliais, kad juos būtų galima išplėsti iki vaizdo tonizavimo. Šiame darbe pristatomi du VToonify egzemplioriai, skirti atitinkamai kolekcijos ir pavyzdinio portreto vaizdo įrašų stiliaus perkėlimui, sukurti remiantis Toonify ir DualStyleGAN.
Išsamios eksperimentinės išvados rodo, kad siūloma VToonify sistema pranoksta konkuruojančius metodus kuriant meninius portretinius filmus su reguliuojamais stiliaus valdikliais, kurie yra puikios kokybės ir laiko atžvilgiu nuoseklūs. Patikrinti GitHub dėl išsamesnės informacijos.
Susijęs straipsnis: OpenAI dirba kurdamas AI modelį vaizdo įrašams |
Siekdama užtikrinti valdomą didelės raiškos portretinio vaizdo stiliaus perkėlimą, VToonify sujungia vaizdo vertimo sistemos ir StyleGAN pagrindu sukurtos sistemos pranašumus.
(A) Kad palaikytų kintamą įvesties dydį, vaizdų vertimo sistema naudoja visiškai konvoliucinius tinklus. Vis dėlto mokant nuo nulio sudėtinga suteikti didelės raiškos ir kontroliuojamo stiliaus.
(B) StyleGAN pagrįsta sistema, kuri palaiko tik fiksuotą vaizdo dydį ir detalių praradimą, naudoja iš anksto paruoštą StyleGAN modelį, kad būtų galima perduoti didelę skiriamąją gebą ir valdyti stilių.
(C) Siekdama sukurti visiškai konvoliucinę kodavimo ir generatoriaus architektūrą, panašią į vaizdų vertimo sistemą, mūsų hibridinė sistema išplečia StyleGAN, pašalindama fiksuoto dydžio įvesties funkciją ir mažos skiriamosios gebos sluoksnius.
Siekdami išsaugoti kadro detales, kūrėjai apmoko koduotoją kaip papildomą turinio sąlygą iš įvesties rėmelio išskirti kelių mastelių turinio funkcijas. VToonify paveldi StyleGAN modelio stiliaus valdymo lankstumą, įtraukdama jį į generatorių, kad būtų distiliuojami jo duomenys ir modelis.
Susijęs straipsnis: „Lambda Labs“ paskelbė apie AI vaizdo maišytuvą, kuris gali sujungti iki penkių vaizdų |
VToonify sistema paveldi patrauklias lankstaus stiliaus valdymo savybes iš dabartinių StyleGAN pagrįstų vaizdo tonizavimo modelių ir yra suderinama su jais, kad juos išplėstų. video tonizavimas. Mūsų VToonify siūlo šiuos dalykus, naudojant DualStyleGAN modelį kaip StyleGAN pagrindą:
- Stiliaus perkėlimas iš pavyzdinėmis struktūromis;
- Stiliaus laipsnio modifikavimas;
- Spalvų stiliaus perkėlimas pagal pavyzdžius.
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.