VToonify: reāllaika AI modelis māksliniecisku portretu video ģenerēšanai
Īsumā
Izstrādātāji izstrādāja revolucionāru VToonify sistēmu, lai nodrošinātu kontrolētu augstas izšķirtspējas portreta video stila pārsūtīšanu.
Lai radītu satriecošus mākslinieciskus portretus, ietvars izmanto StyleGAN vidējas un augstas izšķirtspējas slāņus.
Tas ļauj paplašināt esošo StyleGAN bāzes attēla tonizācijas modeļi uz video.
Pētnieki no Nanyang Tehnoloģiskās universitātes ir ieviesa jaunu VToonify ietvaru lai ģenerētu vadāmu augstas izšķirtspējas portreta video stila pārsūtīšanu. VToonify izmanto StyleGAN vidējas un augstas izšķirtspējas slāņus, lai renderētu augstas kvalitātes mākslinieciskus portretus, kuru pamatā ir kodētāja iegūtie daudzpakāpju satura līdzekļi, lai labāk saglabātu kadra detaļas. Eksperimentu rezultāti liecina, ka mūsu sistēma var ģenerēt videoklipus ar nemainīgi augstu kvalitāti un vēlamām sejas izteiksmēm bez nepieciešamības pēc sejas izlīdzināšanas vai kadra izmēra ierobežojumiem.
Rezultātā pilnībā konvolucionāla arhitektūra, kas pieņem nesaskaņotas sejas dažāda lieluma videoklipos, rada pilnīgas sejas ar organiskām kustībām. VToonify ietvars pārmanto šo modeļu pievilcīgās iezīmes elastīgai krāsu un intensitātes stila kontrolei. Tas ir saderīgs ar esošajiem StyleGAN bāzes attēla tonizācijas modeļiem, lai tos paplašinātu, iekļaujot video tonizāciju. Šis darbs iepazīstina ar divām VToonify instancēm, lai pārsūtītu attiecīgi uz kolekciju un paraugiem balstītu portreta video stila pārsūtīšanu, pamatojoties uz Toonify un DualStyleGAN.
Plaši eksperimentālie atklājumi liecina, ka piedāvātā VToonify sistēma pārspēj konkurējošās pieejas, veidojot mākslinieciskas portreta filmas ar regulējamām stila vadīklām, kas ir izcilas kvalitātes un laika ziņā konsekventas. Pārbaudiet GitHub lai saņemtu sīkāku informāciju.
Saistītais raksts: OpenAI strādā pie AI modeļa izveides video |
Lai nodrošinātu vadāmu augstas izšķirtspējas portreta video stila pārsūtīšanu, VToonify apvieno attēlu tulkošanas ietvara un StyleGAN bāzes ietvara priekšrocības.
(A) Lai atbalstītu mainīgu ievades izmēru, attēlu tulkošanas sistēma izmanto pilnībā konvolūcijas tīklus. Tomēr, mācot no nulles, ir grūti piešķirt augstu izšķirtspēju un kontrolētu stilu.
(B) Uz StyleGAN balstīta sistēma, kas atbalsta tikai fiksētu attēla izmēru un detaļu zudumus, izmanto iepriekš apmācītu StyleGAN modeli augstas izšķirtspējas un vadāma stila pārsūtīšanai.
(C) Lai izveidotu pilnīgi konvolucionālu kodētāja-ģeneratora arhitektūru, kas atgādina attēlu tulkošanas ietvara arhitektūru, mūsu hibrīdsistēma paplašina StyleGAN, dzēšot tā fiksētā izmēra ievades funkciju un zemas izšķirtspējas slāņus.
Lai saglabātu kadra detaļas, izstrādātāji apmāca kodētāju, lai kā papildu satura nosacījumu no ievades rāmja iegūtu vairāku mērogu satura funkcijas. VToonify pārmanto StyleGAN modeļa stila vadības elastību, ievietojot to ģeneratorā, lai destilē gan tā datus, gan modeli.
Saistītais raksts: Lambda Labs paziņoja par AI attēlu mikseri, kas var apvienot līdz pieciem attēliem |
VToonify ietvars pārmanto pievilcīgās iezīmes elastīgai stila kontrolei no pašreizējiem StyleGAN bāzes attēlu tonizācijas modeļiem un ir saderīgs ar tiem, lai tos paplašinātu video tonizācija. Mūsu VToonify piedāvā sekojošo, izmantojot DualStyleGAN modeli kā StyleGAN pamatu:
- Stila pārņemšana no uz paraugiem balstītām struktūrām;
- Stila pakāpes modifikācija;
- Krāsu stila nodošana, pamatojoties uz paraugiem.
Lasiet vairāk par AI:
Atbildības noraidīšana
Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.
Par Autors
Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.
Vairāk rakstusDamirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.