VToonify: AI модел в реално време за генериране на художествени портретни видеоклипове
Накратко
Революционна рамка VToonify е разработена от разработчиците, за да осигури контролирани трансфери в портретен видео стил с висока разделителна способност.
За да създаде зашеметяващи артистични портрети, рамката използва слоевете със средна и висока разделителна способност на StyleGAN.
Позволява разширяване на съществуващите базирани на StyleGAN модели за тонизиране на изображения към видео.
Изследователи от Технологичния университет Нанянг имат въведе нова рамка VToonify за генериране на контролируем трансфер в портретен видео стил с висока разделителна способност. VToonify използва слоевете със средна и висока разделителна способност на StyleGAN, за да изобрази висококачествени артистични портрети, базирани на многомащабните характеристики на съдържанието, извлечени от енкодер за по-добро запазване на детайлите на рамката. Експерименталните резултати показват, че нашата рамка може да генерира видеоклипове с постоянно високо качество и желани изражения на лицето без необходимост от подравняване на лицето или ограничения за размера на рамката.
В резултат на това една напълно конволюционна архитектура, която приема неподравнени лица във видеоклипове с различни размери, създава пълни лица с органични движения. VToonify framework наследява привлекателните функции на тези модели за гъвкав контрол на стила на цвят и интензитет. Той е съвместим със съществуващите базирани на StyleGAN модели за тонизиране на изображения, за да ги разшири до видео тонизиране. Тази работа въвежда две инстанции на VToonify за прехвърляне на портретен видео стил, базиран на колекция и базиран на пример, съответно, изграден върху Toonify и DualStyleGAN.
Обширни експериментални констатации показват, че предложената рамка VToonify превъзхожда конкурентните подходи при създаването на артистични портретни филми с регулируеми стилови контроли, които са с отлично качество и последователни във времето. Проверете GitHub за повече информация.
Свързана статия: OpenAI работи върху създаването на AI модел за видео |
За да осигури контролиран портретен видео стил с висока разделителна способност, VToonify съчетава предимствата на рамката за превод на изображения и базираната на StyleGAN рамка.
(A) За да поддържа променлив входен размер, системата за превод на изображения използва напълно конволюционни мрежи. Въпреки това е предизвикателство да се придаде стил с висока разделителна способност и контролиран, когато се преподава от нулата.
(B) Базирана на StyleGAN рамка, която поддържа само фиксиран размер на картината и загуба на детайли, използва предварително обучения модел StyleGAN за прехвърляне на стил с висока разделителна способност и контролируем.
(C) За да се създаде напълно конволюционна архитектура на енкодер-генератор, наподобяваща тази на рамката за превод на изображения, нашата хибридна система разширява StyleGAN, като изтрива функцията за въвеждане с фиксиран размер и слоевете с ниска разделителна способност.
За да запазят детайлите на рамката, разработчиците обучават енкодер да извлича многомащабни характеристики на съдържанието от входната рамка като допълнително условие за съдържание. VToonify наследява гъвкавостта на стиловия контрол на модела StyleGAN, като го поставя в генератора, за да дестилира както неговите данни, така и модела.
Свързана статия: Lambda Labs обяви смесител на изображения с изкуствен интелект, който може да комбинира до пет изображения |
VToonify framework наследява привлекателните характеристики за гъвкав контрол на стила от настоящите базирани на StyleGAN модели за тонизиране на изображения и е съвместим с тях, за да ги разшири до видео тонизиране. Нашият VToonify предлага следното, използвайки модела DualStyleGAN като основа на StyleGAN:
- Трансфер на стил от структури, базирани на образци;
- Промяна на стиловата степен;
- Прехвърляне на цветови стил въз основа на екземпляри.
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.