Raport aktualności Technologia
24 stycznia 2023 r.

VToonify: Model sztucznej inteligencji w czasie rzeczywistym do generowania artystycznych portretów wideo

W skrócie

Programiści opracowali rewolucyjną platformę VToonify, aby zapewnić kontrolowane przesyłanie stylów portretowych wideo o wysokiej rozdzielczości.

Aby stworzyć oszałamiające portrety artystyczne, rama wykorzystuje warstwy o średniej i wysokiej rozdzielczości StyleGAN.

Pozwala na rozszerzenie istniejących rozwiązań opartych na StyleGAN modele toonizacji obrazu do wideo.

Naukowcy z Nanyang Technological University mają wprowadził nowatorską platformę VToonify do generowania kontrolowanego transferu stylów wideo w wysokiej rozdzielczości w trybie portretowym. VToonify wykorzystuje warstwy o średniej i wysokiej rozdzielczości StyleGAN do renderowania wysokiej jakości portretów artystycznych w oparciu o wieloskalowe funkcje treści wyodrębnione przez koder w celu lepszego zachowania szczegółów kadru. Wyniki eksperymentów pokazują, że nasze środowisko może generować filmy o niezmiennie wysokiej jakości i pożądanym wyrazie twarzy bez potrzeby wyrównywania twarzy lub ograniczeń rozmiaru klatki.

W rezultacie w pełni konwolucyjna architektura, która akceptuje niewyrównane twarze w filmach o różnych rozmiarach, tworzy kompletne twarze z organicznymi ruchami. Framework VToonify dziedziczy atrakcyjne funkcje tych modeli, zapewniając elastyczną kontrolę stylu pod względem koloru i intensywności. Jest kompatybilny z istniejącymi modelami toonyfikacji obrazu opartymi na StyleGAN, aby rozszerzyć je na toonizację wideo. Ta praca przedstawia dwie instancje VToonify odpowiednio do transferu stylów wideo portretowych opartych na kolekcjach i przykładach, opartych na Toonify i DualStyleGAN.

Vtoonify: Model sztucznej inteligencji w czasie rzeczywistym do generowania artystycznych portretów wideo

Obszerne odkrycia eksperymentalne pokazują, że proponowany framework VToonify przewyższa konkurencyjne podejścia do tworzenia artystycznych filmów portretowych z regulowanymi elementami sterującymi stylu, które są doskonałej jakości i spójne czasowo. Sprawdzać GitHub by uzyskać więcej szczegółów.

Podobne artykuły: OpenAI pracuje nad stworzeniem modelu AI dla wideo

Aby zapewnić kontrolowany transfer stylów wideo w wysokiej rozdzielczości, VToonify łączy zalety struktury translacji obrazu i struktury opartej na StyleGAN.

(A) Aby obsłużyć zmienny rozmiar danych wejściowych, system translacji obrazów wykorzystuje w pełni sieci splotowe. Niemniej jednak podczas nauczania od zera nadanie wysokiej rozdzielczości i kontrolowanego stylu jest wyzwaniem.

(B) Struktura oparta na StyleGAN, która obsługuje tylko stały rozmiar obrazu i utratę szczegółów, wykorzystuje wstępnie wytrenowany model StyleGAN do transferu stylów w wysokiej rozdzielczości i kontrolowanego.

(C) Aby stworzyć całkowicie konwolucyjną architekturę enkodera-generatora, przypominającą architekturę translacji obrazu, nasz hybrydowy system rozszerza StyleGAN, usuwając funkcje wejściowe o stałym rozmiarze i warstwy o niskiej rozdzielczości.

Aby zachować szczegóły ramek, programiści szkolą koder, aby wyodrębniał wieloskalowe funkcje treści z ramki wejściowej jako dodatkowy warunek treści. VToonify dziedziczy elastyczność kontroli stylu modelu StyleGAN, umieszczając go w generatorze w celu destylacji zarówno danych, jak i modelu.

Vtoonify: Model sztucznej inteligencji w czasie rzeczywistym do generowania artystycznych portretów wideo
Podobne artykuły: Lambda Labs ogłosiło mikser obrazów AI, który może łączyć do pięciu obrazów

Struktura VToonify dziedziczy atrakcyjne cechy elastycznej kontroli stylu z obecnych modeli toonizacji obrazu opartych na StyleGAN i jest z nimi kompatybilna, aby rozszerzyć je na wideo toonifikacja. Nasz VToonify oferuje następujące rozwiązania, wykorzystując model DualStyleGAN jako podstawę StyleGAN:

  • Transfer stylu z wzorcowych konstrukcji;
  • Modyfikacja stopnia stylu;
  • Przeniesienie stylu kolorystycznego na podstawie wzorców.
Vtoonify: Model sztucznej inteligencji w czasie rzeczywistym do generowania artystycznych portretów wideo
W przypadku destylacji StyleGAN programiści porównują dwa szkielety Toonify i DualStyleGAN, a także podstawową translację obrazu na obraz w wysokiej rozdzielczości Pix2pixHD. VToonify-T i VToonify-D przewyższają porównywalne szkielety, Toonify i DualStyleGAN, pod względem stylizacji całego wideo przy zachowaniu tej samej wysokiej jakości i elementów wizualnych, co szkielety dla każdej pojedynczej klatki. Na przykład VToonify-T podąża za Toonify, aby narzucić mocny efekt stylu, taki jak fioletowe włosy w stylu Arcane. Z drugiej strony VToonify-D lepiej radzi sobie z utrzymaniem rysów twarzy. Pix2pixHD ma migotanie i artefakty w porównaniu do VToonify-D.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej

Założyciele portfela Samourai oskarżeni o ułatwianie transakcji o wartości 2 miliardów dolarów w Darknet

Zaniepokojenie założycieli Samourai Wallet stanowi wyraźną porażkę dla branży, podkreślając utrzymujące się...

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
AltLayer wchodzi w drugą fazę swojej inicjatywy stakingowej, wprowadza token realALT
rynki Raport aktualności Technologia
AltLayer wchodzi w drugą fazę swojej inicjatywy stakingowej, wprowadza token realALT
2 maja 2024 r.
Sieć BNB publikuje raport za pierwszy kwartał 1 r., w którym podkreśla redukcję utraty wartości o 2024%, podczas gdy BSC TVL rośnie o 55.8%
rynki Raport aktualności Technologia
Sieć BNB publikuje raport za pierwszy kwartał 1 r., w którym podkreśla redukcję utraty wartości o 2024%, podczas gdy BSC TVL rośnie o 55.8%
2 maja 2024 r.
Naver i Kakao’s Kaia: nowa azjatycka potęga Blockchain gotowa zakłócić światowe rynki kryptowalut
Biznes Tworzenie Historie i recenzje Technologia
Naver i Kakao’s Kaia: nowa azjatycka potęga Blockchain gotowa zakłócić światowe rynki kryptowalut
2 maja 2024 r.
Aave Labs przedstawia propozycję „Aave 2030”, obejmującą uruchomienie protokołu Aave V4
Biznes Raport aktualności Technologia
Aave Labs przedstawia propozycję „Aave 2030”, obejmującą uruchomienie protokołu Aave V4
2 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.