VToonify: Model AI v reálnom čase na vytváranie umeleckých portrétových videí
Stručne
Vývojári vyvinuli revolučný rámec VToonify, ktorý poskytuje riadené prenosy štýlu videa na výšku s vysokým rozlíšením.
Na vytváranie úžasných umeleckých portrétov rám využíva vrstvy StyleGAN so stredným a vysokým rozlíšením.
Umožňuje rozšírenie existujúcich na báze StyleGAN modely tónovania obrazu na video.
Vedci z Nanyangskej technologickej univerzity majú predstavil nový rámec VToonify na generovanie ovládateľného prenosu štýlu videa na výšku s vysokým rozlíšením. VToonify využíva vrstvy StyleGAN so stredným a vysokým rozlíšením na vykreslenie vysokokvalitných umeleckých portrétov založených na funkciách viacrozmerného obsahu extrahovaných kodérom, aby sa lepšie zachovali detaily snímky. Experimentálne výsledky ukazujú, že náš rámec dokáže generovať videá s konzistentne vysokou kvalitou a požadovanými výrazmi tváre bez potreby zarovnania tváre alebo obmedzení veľkosti snímok.
Výsledkom je, že plne konvolučná architektúra, ktorá akceptuje nezarovnané tváre vo videách rôznych veľkostí, vytvára úplné tváre s organickými pohybmi. Rámec VToonify zdedil príťažlivé vlastnosti týchto modelov pre flexibilné ovládanie štýlu farieb a intenzity. Je kompatibilný s existujúcimi modelmi toonizácie obrazu založenými na StyleGAN a rozširuje ich na toonizáciu videa. Táto práca predstavuje dve inštancie VToonify na prenos štýlu videa na výšku založený na kolekcii a na príklade, v tomto poradí, postavené na Toonify a DualStyleGAN.
Rozsiahle experimentálne zistenia ukazujú, že navrhovaný rámec VToonify prekonáva konkurenčné prístupy pri výrobe umeleckých portrétnych filmov s nastaviteľnými ovládacími prvkami štýlu, ktoré sú vynikajúcej kvality a časovo konzistentné. Skontrolujte GitHub pre viac informácií.
Súvisiaci článok: OpenAI pracuje na vytvorení modelu AI pre video |
S cieľom poskytnúť ovládateľný prenos štýlu videa na výšku vo vysokom rozlíšení VToonify kombinuje výhody rámca na preklad obrázkov a rámca založeného na StyleGAN.
(A) Na podporu variabilnej vstupnej veľkosti používa systém na preklad obrázkov plne konvolučné siete. Pri výučbe od nuly je však náročné dodať štýl s vysokým rozlíšením a kontrolovaným štýlom.
(B) Rámec založený na StyleGAN, ktorý podporuje iba pevnú veľkosť obrazu a straty detailov, používa vopred pripravený model StyleGAN na prenos štýlov s vysokým rozlíšením a ovládateľnosťou.
(C) S cieľom vytvoriť úplne konvolučnú architektúru generátora kódovania, ktorá sa podobá architektúre rámca prekladu obrázkov, náš hybridný systém rozširuje StyleGAN odstránením jeho vstupnej funkcie s pevnou veľkosťou a vrstiev s nízkym rozlíšením.
Aby sa zachovali detaily rámca, vývojári trénujú kodér, aby extrahoval funkcie viacškálového obsahu zo vstupného rámca ako dodatočnú podmienku obsahu. VToonify zdedí flexibilitu ovládania štýlu modelu StyleGAN tým, že ho vloží do generátora na destiláciu údajov aj modelu.
Rámec VToonify zdedil príťažlivé vlastnosti pre flexibilné ovládanie štýlu zo súčasných modelov tónovania obrázkov založených na StyleGAN a je s nimi kompatibilný, aby ich rozšíril na videa tónovanie. Naša VToonify ponúka nasledovné pomocou modelu DualStyleGAN ako základu StyleGAN:
- Prenos štýlu zo štruktúr založených na vzoroch;
- Úprava stupňa štýlu;
- Prenos farebného štýlu na základe vzorov.
Prečítajte si viac o AI:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.