Novinky Technika
Ledna 24, 2023

VToonify: Model umělé inteligence v reálném čase pro generování uměleckých portrétních videí

Stručně

Vývojáři vyvinuli revoluční rámec VToonify, který poskytuje řízené přenosy stylu videa na výšku s vysokým rozlišením.

K výrobě úžasných uměleckých portrétů využívá rámec vrstvy StyleGAN ve středním a vysokém rozlišení.

Umožňuje rozšíření stávajících založených na StyleGAN modely tónování obrazu na video.

Vědci z technologické univerzity Nanyang mají představil nový framework VToonify pro generování ovladatelného přenosu stylu videa na výšku s vysokým rozlišením. VToonify využívá vrstvy StyleGAN se středním a vysokým rozlišením k vykreslování vysoce kvalitních uměleckých portrétů založených na funkcích obsahu ve více měřítcích extrahovaných kodérem pro lepší zachování detailů snímku. Experimentální výsledky ukazují, že náš rámec dokáže generovat videa s konzistentně vysokou kvalitou a požadovanými výrazy obličeje bez nutnosti zarovnání obličeje nebo omezení velikosti snímku.

Výsledkem je, že plně konvoluční architektura, která přijímá nezarovnané tváře ve videích různých velikostí, vytváří kompletní tváře s organickými pohyby. Framework VToonify zdědil přitažlivé vlastnosti těchto modelů pro flexibilní ovládání stylu barev a intenzity. Je kompatibilní se stávajícími modely toonifikace obrazu založenými na StyleGAN a rozšiřuje je na toonizaci videa. Tato práce představuje dvě instance VToonify pro přenos stylu videa na výšku založený na kolekcích a na příkladech, v tomto pořadí, postavené na Toonify a DualStyleGAN.

Vtoonify: Model umělé inteligence v reálném čase pro generování uměleckých portrétních videí

Rozsáhlá experimentální zjištění ukazují, že navrhovaný rámec VToonify překonává konkurenční přístupy ve výrobě uměleckých portrétních filmů s nastavitelnými ovládacími prvky stylu, které jsou vynikající kvality a časově konzistentní. Šek GitHub pro více informací.

Související článek: OpenAI pracuje na vytvoření modelu umělé inteligence pro video

Aby bylo možné zajistit ovladatelný přenos stylu videa na výšku s vysokým rozlišením, VToonify kombinuje výhody rámce pro překlad obrázků a rámce založeného na StyleGAN.

(A) Pro podporu proměnné vstupní velikosti používá systém pro překlad obrázků plně konvoluční sítě. Při výuce od nuly je však náročné předat styl s vysokým rozlišením a kontrolovaným stylem.

(B) Rámec založený na StyleGAN, který podporuje pouze pevnou velikost obrazu a ztráty detailů, používá předem trénovaný model StyleGAN pro přenos stylu s vysokým rozlišením a ovladatelností.

(C) Abychom vytvořili zcela konvoluční architekturu kodéru-generátoru, která se podobá architektuře rámce pro překlad obrázků, náš hybridní systém rozšiřuje StyleGAN odstraněním jeho vstupní funkce s pevnou velikostí a vrstev s nízkým rozlišením.

Aby se zachovaly detaily rámce, vývojáři trénují kodér, aby ze vstupního rámce extrahoval funkce vícestupňového obsahu jako další podmínku obsahu. VToonify zdědí flexibilitu ovládání stylu modelu StyleGAN tím, že jej vloží do generátoru, kde destiluje data i model.

Vtoonify: Model umělé inteligence v reálném čase pro generování uměleckých portrétních videí
Související článek: Lambda Labs oznámila AI obrazový mix, který dokáže kombinovat až pět obrázků

Framework VToonify zdědil přitažlivé vlastnosti pro flexibilní ovládání stylu ze současných modelů toonifikace obrázků založených na StyleGAN a je s nimi kompatibilní, aby je mohl rozšířit na video tónování. Naše VToonify nabízí následující pomocí modelu DualStyleGAN jako základu StyleGAN:

  • Přenos stylu ze struktur založených na vzorech;
  • Úprava stupně stylu;
  • Přenos barevného stylu na základě vzorů.
Vtoonify: Model umělé inteligence v reálném čase pro generování uměleckých portrétních videí
Pro destilaci StyleGAN vývojáři porovnávají dvě páteřní sítě Toonify a DualStyleGAN, stejně jako základní linii převodu obrazu do obrazu ve vysokém rozlišení Pix2pixHD. VToonify-T a VToonify-D překonávají své srovnatelné páteře, Toonify a DualStyleGAN, pokud jde o stylizaci celého videa při zachování stejně vysoké kvality a vizuálních prvků jako páteře pro každý jednotlivý snímek. VToonify-T například následuje Toonify, aby vytvořil silný stylový efekt, jako jsou fialové vlasy ve stylu Arcane. VToonify-D na druhou stranu lépe udržuje rysy obličeje. Pix2pixHD má ve srovnání s VToonify-D blikání a artefakty.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více

Zakladatelé peněženky Samourai byli obviněni z usnadňování 2 miliard dolarů v obchodech Darknet

Obavy zakladatelů Peněženky Samourai představují pro průmysl významnou překážku, která podtrhuje přetrvávající ...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
AltLayer vstupuje do druhé fáze své vytyčovací iniciativy a představuje token realALT
Trhy Novinky Technika
AltLayer vstupuje do druhé fáze své vytyčovací iniciativy a představuje token realALT
2
Řetězec BNB zveřejnil zprávu za 1. čtvrtletí 2024, zdůrazňuje 55.8% snížení ztráty hodnoty, zatímco BSC TVL stoupá o 70.8 %
Trhy Novinky Technika
Řetězec BNB zveřejnil zprávu za 1. čtvrtletí 2024, zdůrazňuje 55.8% snížení ztráty hodnoty, zatímco BSC TVL stoupá o 70.8 %
2
Naver a Kakao's Kaia: Nová asijská blockchainová velmoc připravena narušit globální krypto trhy
Business Vývoj Příběhy a recenze Technika
Naver a Kakao's Kaia: Nová asijská blockchainová velmoc připravena narušit globální krypto trhy
2
Aave Labs představuje návrh „Aave 2030“ včetně spuštění protokolu Aave V4
Business Novinky Technika
Aave Labs představuje návrh „Aave 2030“ včetně spuštění protokolu Aave V4
2
CRYPTOMERIA LABS PTE. LTD.