VToonify: Model sztucznej inteligencji w czasie rzeczywistym do generowania artystycznych portretów wideo
W skrócie
Programiści opracowali rewolucyjną platformę VToonify, aby zapewnić kontrolowane przesyłanie stylów portretowych wideo o wysokiej rozdzielczości.
Aby stworzyć oszałamiające portrety artystyczne, rama wykorzystuje warstwy o średniej i wysokiej rozdzielczości StyleGAN.
Pozwala na rozszerzenie istniejących rozwiązań opartych na StyleGAN modele toonizacji obrazu do wideo.
Naukowcy z Nanyang Technological University mają wprowadził nowatorską platformę VToonify do generowania kontrolowanego transferu stylów wideo w wysokiej rozdzielczości w trybie portretowym. VToonify wykorzystuje warstwy o średniej i wysokiej rozdzielczości StyleGAN do renderowania wysokiej jakości portretów artystycznych w oparciu o wieloskalowe funkcje treści wyodrębnione przez koder w celu lepszego zachowania szczegółów kadru. Wyniki eksperymentów pokazują, że nasze środowisko może generować filmy o niezmiennie wysokiej jakości i pożądanym wyrazie twarzy bez potrzeby wyrównywania twarzy lub ograniczeń rozmiaru klatki.
W rezultacie w pełni konwolucyjna architektura, która akceptuje niewyrównane twarze w filmach o różnych rozmiarach, tworzy kompletne twarze z organicznymi ruchami. Framework VToonify dziedziczy atrakcyjne funkcje tych modeli, zapewniając elastyczną kontrolę stylu pod względem koloru i intensywności. Jest kompatybilny z istniejącymi modelami toonyfikacji obrazu opartymi na StyleGAN, aby rozszerzyć je na toonizację wideo. Ta praca przedstawia dwie instancje VToonify odpowiednio do transferu stylów wideo portretowych opartych na kolekcjach i przykładach, opartych na Toonify i DualStyleGAN.
Obszerne odkrycia eksperymentalne pokazują, że proponowany framework VToonify przewyższa konkurencyjne podejścia do tworzenia artystycznych filmów portretowych z regulowanymi elementami sterującymi stylu, które są doskonałej jakości i spójne czasowo. Sprawdzać GitHub by uzyskać więcej szczegółów.
Podobne artykuły: OpenAI pracuje nad stworzeniem modelu AI dla wideo |
Aby zapewnić kontrolowany transfer stylów wideo w wysokiej rozdzielczości, VToonify łączy zalety struktury translacji obrazu i struktury opartej na StyleGAN.
(A) Aby obsłużyć zmienny rozmiar danych wejściowych, system translacji obrazów wykorzystuje w pełni sieci splotowe. Niemniej jednak podczas nauczania od zera nadanie wysokiej rozdzielczości i kontrolowanego stylu jest wyzwaniem.
(B) Struktura oparta na StyleGAN, która obsługuje tylko stały rozmiar obrazu i utratę szczegółów, wykorzystuje wstępnie wytrenowany model StyleGAN do transferu stylów w wysokiej rozdzielczości i kontrolowanego.
(C) Aby stworzyć całkowicie konwolucyjną architekturę enkodera-generatora, przypominającą architekturę translacji obrazu, nasz hybrydowy system rozszerza StyleGAN, usuwając funkcje wejściowe o stałym rozmiarze i warstwy o niskiej rozdzielczości.
Aby zachować szczegóły ramek, programiści szkolą koder, aby wyodrębniał wieloskalowe funkcje treści z ramki wejściowej jako dodatkowy warunek treści. VToonify dziedziczy elastyczność kontroli stylu modelu StyleGAN, umieszczając go w generatorze w celu destylacji zarówno danych, jak i modelu.
Struktura VToonify dziedziczy atrakcyjne cechy elastycznej kontroli stylu z obecnych modeli toonizacji obrazu opartych na StyleGAN i jest z nimi kompatybilna, aby rozszerzyć je na wideo toonifikacja. Nasz VToonify oferuje następujące rozwiązania, wykorzystując model DualStyleGAN jako podstawę StyleGAN:
- Transfer stylu z wzorcowych konstrukcji;
- Modyfikacja stopnia stylu;
- Przeniesienie stylu kolorystycznego na podstawie wzorców.
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.