Listopad 23, 2022

Sber AI zaprezentowało Kandinsky 2.0, pierwszy model zamiany tekstu na obraz do generowania w ponad 100 językach

Opublikowano: 23 listopada 2022 o 1:23 Zaktualizowano: 23 listopada 2022 o 1:23

W skrócie

Kandinsky 2.0, pierwszy wielojęzyczny model rozpowszechniania, został stworzony i przeszkolony przez naukowców Sber AI przy pomocy naukowców z Instytutu Sztucznej Inteligencji AI przy użyciu połączonego zestawu danych 1 miliarda par tekst-obraz z Sber AI i SberDevices

Dyfuzja w coraz większym stopniu zastępuje sieci GAN i modele autoregresyjne w szeregu zadań przetwarzania obrazu cyfrowego. Nie jest to zaskakujące, ponieważ dyfuzja jest łatwiejsza do nauczenia, nie wymaga skomplikowanego doboru hiperparametrów, optymalizacji min-max i nie cierpi na niestabilność uczenia się. A co najważniejsze, modele rozpowszechniania wykazują najnowocześniejsze wyniki w prawie wszystkich zadaniach generatywnych — generowaniu obrazu za pomocą tekstu, generowaniu dźwięku, wideo, a nawet 3D.

Sber AI zaprezentowało Kandinsky 2.0, pierwszy model zamiany tekstu na obraz do generowania w ponad 100 językach — Obraz stworzony przez Kandinsky AI

Niestety, większość prac w dziedzinie text-to-coś skupia się tylko na języku angielskim i chińskim. Aby naprawić tę niesprawiedliwość, Sber AI postanowiłem stworzyć wielojęzyczny model rozpowszechniania tekstu na obraz Kandinsky 2.0, który rozumie zapytania w ponad 100 językach. Przytulanie twarzy oferuje już Kandinsky 2.0. Badacze z SberAI i SberDevices mają współpracował z ekspertami z AI Institute of Artificial Intelligence nad tym projektem.

Co to jest dyfuzja?

W artykule z 2015 r Głębokie uczenie nienadzorowane przy użyciu termodynamiki nierównowagi, modele dyfuzji zostały po raz pierwszy opisane jako akt mieszania substancji powodujący dyfuzję, która wyrównuje rozkład. Jak sugeruje tytuł artykułu, do wyjaśnienia modeli dyfuzji podeszli w ramach termodynamiki.

W przypadku obrazów taki proces może przypominać np. stopniowe usuwanie szumu gaussowskiego z obrazu.

Artykuł Modele dyfuzji Bić Opublikowany w 2021 roku GANs on Image Synthesis jako pierwszy wykazał wyższość modeli dyfuzyjnych nad GANS. Autorzy opracowali również podejście kontrolne pierwszej generacji (warunkowanie), które nazwali naprowadzaniem klasyfikatora. Ta metoda tworzy obiekty pasujące do zamierzonej klasy przy użyciu gradientów z innego klasyfikatora (na przykład psy). Poprzez mechanizm Adaptive Group Norm, polegający na prognozowaniu współczynników normalizacji, realizowana jest sama kontrola.

Ten artykuł może być postrzegany jako punkt zwrotny w dziedzinie generatywnej sztucznej inteligencji, który skłonił wielu do zwrócenia się ku badaniu dyfuzji. Nowe artykuły dot zamiana tekstu na wideo, tekst do 3D, wizerunek malowanie, generacja dźwięku, dyfuzja dla superrozdzielczość, a nawet generowanie ruchu zaczęło pojawiać się co kilka tygodni.

Rozpowszechnianie tekstu na obraz

Jak wspomnieliśmy wcześniej, redukcja szumów i eliminacja szumów są zazwyczaj głównymi składnikami procesów dyfuzji w kontekście modalności obrazu, dlatego UNet i jego liczne odmiany są często używane jako podstawowa architektura.

Istotne jest, aby tekst ten został w jakiś sposób uwzględniony podczas generacji, aby na jego podstawie stworzyć obraz. Autorzy ww OpenAI artykuł na temat modelu GLIDE sugerował modyfikację podejścia do naprowadzania tekstu bez klasyfikatorów.

Zastosowanie zamrożonych, wstępnie napromieniowanych koderów tekstu i mechanizmu zwiększania rozdzielczości kaskadowej w przyszłości znacznie poprawiło produkcję tekstu (Obraz). Okazało się, że nie ma potrzeby trenowania części tekstowej Modele zamiany tekstu na obraz ponieważ użycie zamrożonego T5-xxl skutkowało znacznie poprawą jakości obrazu i rozumienia tekstu oraz wymagało znacznie mniej zasobów szkoleniowych.

Autorzy a Utajona dyfuzja artykuł wykazał, że komponent obrazu właściwie nie wymaga szkolenia (przynajmniej nie do końca). Nauka będzie przebiegać jeszcze szybciej, jeśli użyjemy potężnego autokodera obrazu (VQ-VAE lub KL-VAE) jako dekodera wizualnego i spróbujemy wygenerować osadzenie z jego ukrytej przestrzeni poprzez dyfuzję, a nie sam obraz. Ta metodologia jest również podstawą niedawno wydanej Stable Diffusion model.

Model sztucznej inteligencji Kandinsky'ego 2.0

Z kilkoma kluczowymi ulepszeniami, Kandinsky 2.0 opiera się na ulepszonej technice Latent Diffusion (nie tworzymy obrazów, ale raczej ich ukryte wektory):

Zastosowano dwa wielojęzyczne kodery tekstu i połączono ich elementy osadzone.
Dodano UNet (1.2 miliarda parametrów).
Progi dynamiczne procedury próbkowania.

Model sztucznej inteligencji Kandinsky'ego 2.0

Badacze wykorzystali jednocześnie dwa wielojęzyczne kodery — XLMR-clip i mT5-small — aby model naprawdę wielojęzyczny. Dlatego oprócz angielskiego, rosyjskiego, francuskiego i niemieckiego model rozumie również takie języki, jak mongolski, hebrajski i perski. AI zna łącznie 101 języków. Dlaczego zdecydowano się na kodowanie tekstu przy użyciu dwóch modeli jednocześnie? Ponieważ XLMR-clip widział obrazy i zapewnia bliskie osadzenie w różnych językach, a mT5-small jest w stanie zrozumieć złożone teksty, modele te mają różne, ale kluczowe cechy. Ponieważ oba modele mają tylko niewielką liczbę parametrów (560M i 146M), jak wykazały nasze wstępne testy, zdecydowano się na jednoczesne użycie dwóch enkoderów.

Świeżo wygenerowane obrazy według modelu AI Kandinsky 2.0 poniżej:

Jak przebiegało szkolenie na modelu Kandinsky 2.0?

Do szkolenia na platformie ML Space wykorzystano superkomputery Christofari. Wymagało to 196 kart NVIDIA A100, każda z 80 GB pamięci RAM. Ukończenie szkolenia zajęło 14 dni lub 65,856 256 godzin GPU. Analiza zajęła pięć dni przy rozdzielczości 256×512, następnie sześć dni przy rozdzielczości 512×XNUMX, a następnie dodatkowe trzy dni na najczystszych danych.

Jako dane szkoleniowe połączono wiele zestawów danych, które zostały wstępnie przefiltrowane pod kątem znaków wodnych, niskiej rozdzielczości i niskiej zgodności z opisem tekstu, co zmierzono za pomocą metryki CLIP-score.

Pokolenie wielojęzyczne

Kandinsky 2.0 to pierwszy wielojęzyczny model tworzenia obrazów ze słów, dający nam pierwszą szansę oceny zmian językowych i wizualnych w różnych kulturach językowych. Wyniki tłumaczenia tego samego zapytania na kilka języków przedstawiono poniżej. Na przykład w wynikach generacji dla rosyjskiego zapytania „osoba z wyższym wykształceniem” pojawiają się tylko biali mężczyźni, podczas gdy wyniki dla francuskiego tłumaczenia „Photo d'une personne diplômée de l'enseignement supérieur” są bardziej zróżnicowane. Zaznaczam, że zasmuceni ludzie z wyższym wykształceniem są obecni tylko w wydaniu rosyjskojęzycznym.

Chociaż wciąż jest mnóstwo prób z ogromnymi modelami językowymi i planowanymi różnymi metodami procesu rozpowszechniania, możemy już z całą pewnością stwierdzić, że Kandinsky 2.0 jest pierwszym całkowicie wielojęzycznym modelem rozpowszechniania! Na stronie FusionBrain i Współpraca Google, możesz zobaczyć przykłady jej rysunków.

Przeczytaj więcej o sztucznej inteligencji:

tagi:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.

Więcej artykułów

Damir Jałałow