Novinová správa Technológia
Januára 24, 2023

VToonify: Model AI v reálnom čase na vytváranie umeleckých portrétových videí

Stručne

Vývojári vyvinuli revolučný rámec VToonify, ktorý poskytuje riadené prenosy štýlu videa na výšku s vysokým rozlíšením.

Na vytváranie úžasných umeleckých portrétov rám využíva vrstvy StyleGAN so stredným a vysokým rozlíšením.

Umožňuje rozšírenie existujúcich na báze StyleGAN modely tónovania obrazu na video.

Vedci z Nanyangskej technologickej univerzity majú predstavil nový rámec VToonify na generovanie ovládateľného prenosu štýlu videa na výšku s vysokým rozlíšením. VToonify využíva vrstvy StyleGAN so stredným a vysokým rozlíšením na vykreslenie vysokokvalitných umeleckých portrétov založených na funkciách viacrozmerného obsahu extrahovaných kodérom, aby sa lepšie zachovali detaily snímky. Experimentálne výsledky ukazujú, že náš rámec dokáže generovať videá s konzistentne vysokou kvalitou a požadovanými výrazmi tváre bez potreby zarovnania tváre alebo obmedzení veľkosti snímok.

Výsledkom je, že plne konvolučná architektúra, ktorá akceptuje nezarovnané tváre vo videách rôznych veľkostí, vytvára úplné tváre s organickými pohybmi. Rámec VToonify zdedil príťažlivé vlastnosti týchto modelov pre flexibilné ovládanie štýlu farieb a intenzity. Je kompatibilný s existujúcimi modelmi toonizácie obrazu založenými na StyleGAN a rozširuje ich na toonizáciu videa. Táto práca predstavuje dve inštancie VToonify na prenos štýlu videa na výšku založený na kolekcii a na príklade, v tomto poradí, postavené na Toonify a DualStyleGAN.

Vtoonify: Model AI v reálnom čase na vytváranie umeleckých portrétových videí

Rozsiahle experimentálne zistenia ukazujú, že navrhovaný rámec VToonify prekonáva konkurenčné prístupy pri výrobe umeleckých portrétnych filmov s nastaviteľnými ovládacími prvkami štýlu, ktoré sú vynikajúcej kvality a časovo konzistentné. Skontrolujte GitHub pre viac informácií.

Súvisiaci článok: OpenAI pracuje na vytvorení modelu AI pre video

S cieľom poskytnúť ovládateľný prenos štýlu videa na výšku vo vysokom rozlíšení VToonify kombinuje výhody rámca na preklad obrázkov a rámca založeného na StyleGAN.

(A) Na podporu variabilnej vstupnej veľkosti používa systém na preklad obrázkov plne konvolučné siete. Pri výučbe od nuly je však náročné dodať štýl s vysokým rozlíšením a kontrolovaným štýlom.

(B) Rámec založený na StyleGAN, ktorý podporuje iba pevnú veľkosť obrazu a straty detailov, používa vopred pripravený model StyleGAN na prenos štýlov s vysokým rozlíšením a ovládateľnosťou.

(C) S cieľom vytvoriť úplne konvolučnú architektúru generátora kódovania, ktorá sa podobá architektúre rámca prekladu obrázkov, náš hybridný systém rozširuje StyleGAN odstránením jeho vstupnej funkcie s pevnou veľkosťou a vrstiev s nízkym rozlíšením.

Aby sa zachovali detaily rámca, vývojári trénujú kodér, aby extrahoval funkcie viacškálového obsahu zo vstupného rámca ako dodatočnú podmienku obsahu. VToonify zdedí flexibilitu ovládania štýlu modelu StyleGAN tým, že ho vloží do generátora na destiláciu údajov aj modelu.

Vtoonify: Model AI v reálnom čase na vytváranie umeleckých portrétových videí
Súvisiaci článok: Lambda Labs oznámila AI obrazový mixér, ktorý dokáže kombinovať až päť obrázkov

Rámec VToonify zdedil príťažlivé vlastnosti pre flexibilné ovládanie štýlu zo súčasných modelov tónovania obrázkov založených na StyleGAN a je s nimi kompatibilný, aby ich rozšíril na videa tónovanie. Naša VToonify ponúka nasledovné pomocou modelu DualStyleGAN ako základu StyleGAN:

  • Prenos štýlu zo štruktúr založených na vzoroch;
  • Úprava stupňa štýlu;
  • Prenos farebného štýlu na základe vzorov.
Vtoonify: Model AI v reálnom čase na vytváranie umeleckých portrétových videí
V prípade destilácie StyleGAN vývojári porovnávajú dve základné časti Toonify a DualStyleGAN, ako aj základnú líniu prekladu medzi obrázkami Pix2pixHD s vysokým rozlíšením. VToonify-T a VToonify-D prekonávajú svoje porovnateľné chrbticové siete, Toonify a DualStyleGAN, pokiaľ ide o štylizáciu celého videa pri zachovaní rovnakej vysokej kvality a vizuálnych prvkov ako chrbtica pre každý jednotlivý snímok. Napríklad VToonify-T nasleduje po Toonify, aby vytvoril silný štýlový efekt, ako napríklad fialové vlasy v štýle Arcane. VToonify-D, na druhej strane, robí lepšiu prácu pri udržiavaní čŕt tváre. Pix2pixHD má v porovnaní s VToonify-D blikanie a artefakty.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac

Zakladatelia Peňaženky Samourai boli obvinení z uľahčenia obchodov Darknet v hodnote 2 miliárd USD

Obavy zakladateľov Peňaženky Samourai predstavujú pre odvetvie pozoruhodnú prekážku, ktorá podčiarkuje pretrvávajúcu ...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
AltLayer vstupuje do druhej fázy svojej stávkovej iniciatívy, predstavuje reALT Token
trhy Novinová správa Technológia
AltLayer vstupuje do druhej fázy svojej stávkovej iniciatívy, predstavuje reALT Token
Môže 2, 2024
Reťazec BNB zverejnil správu za 1. štvrťrok 2024, v ktorej sa zdôrazňuje 55.8 % zníženie straty hodnoty, zatiaľ čo BSC TVL stúpne o 70.8 %
trhy Novinová správa Technológia
Reťazec BNB zverejnil správu za 1. štvrťrok 2024, v ktorej sa zdôrazňuje 55.8 % zníženie straty hodnoty, zatiaľ čo BSC TVL stúpne o 70.8 %
Môže 2, 2024
Naver a Kakao's Kaia: Nová ázijská blockchainová elektráreň pripravená narušiť globálne krypto trhy
firmy Softvér Príbehy a recenzie Technológia
Naver a Kakao's Kaia: Nová ázijská blockchainová elektráreň pripravená narušiť globálne krypto trhy
Môže 2, 2024
Aave Labs predstavuje návrh „Aave 2030“ vrátane spustenia protokolu Aave V4
firmy Novinová správa Technológia
Aave Labs predstavuje návrh „Aave 2030“ vrátane spustenia protokolu Aave V4
Môže 2, 2024
CRYPTOMERIA LABS PTE. LTD.