Studenog 23, 2022

Sber AI je predstavio Kandinsky 2.0, prvi model teksta u sliku za generiranje na više od 100 jezika

Objavljeno: 23. studenog 2022. u 1:23 Ažurirano: 23. studenog 2022. u 1:23

Ukratko

Kandinsky 2.0, prvi višejezični difuzijski model, kreirali su i trenirali istraživači Sber AI-ja uz pomoć istraživača s Instituta za umjetnu inteligenciju AI koristeći kombinirani skup podataka od 1 milijarde parova tekst-slika iz Sber AI-ja i SberDevices

Difuzija sve više zamjenjuje GAN-ove i autoregresivne modele u nizu zadataka digitalne obrade slike. To ne čudi jer je difuziju lakše naučiti, ne zahtijeva složen odabir hiperparametara, min-max optimizaciju i ne pati od nestabilnosti učenja. I što je najvažnije, difuzijski modeli pokazuju najsuvremenije rezultate na gotovo svim generativnim zadacima — generiranje slike putem teksta, generiranje zvuka, videa, pa čak i 3D.

Sber AI je predstavio Kandinsky 2.0, prvi model teksta u sliku za generiranje na više od 100 jezika — Slika koju je stvorio Kandinski AI

Nažalost, većina rada na polju pretvaranja teksta u nešto usredotočena je samo na engleski i kineski. Kako bi ispravio ovu nepravdu, Sber AI odlučio stvoriti višejezični model difuzije teksta u sliku Kandinsky 2.0, koji razumije upite na više od 100 jezika. HuggingFace već nudi Kandinski 2.0. Istraživači iz SberAI i SberDevices su surađivao sa stručnjacima iz AI Instituta za umjetnu inteligenciju na ovom projektu.

Što je difuzija?

U članku iz 2015 Duboko nenadzirano učenje korištenjem neravnotežne termodinamike, modeli difuzije su prvi put opisani kao čin miješanja tvari što rezultira difuzijom, koja izjednačava distribuciju. Kao što naslov članka govori, pristupili su objašnjenju difuzijskih modela kroz okvire termodinamike.

U slučaju slika, takav proces može nalikovati, na primjer, postupnom uklanjanju Gaussovog šuma sa slike.

Papirnati modeli difuzije Pobijediti GANs on Image Synthesis, objavljen 2021., prvi je pokazao superiornost difuzijskih modela u odnosu na GANS. Autori su također osmislili pristup kontrole prve generacije (kondicioniranje), koji su nazvali klasifikatorsko vođenje. Ova metoda stvara objekte koji odgovaraju predviđenoj klasi koristeći gradijente iz drugog klasifikatora (na primjer, psi). Preko mehanizma Adaptive Group Norm, koji uključuje prognozu normalizacijskih koeficijenata, provodi se i sama kontrola.

Ovaj se članak može smatrati prekretnicom u polju generativne umjetne inteligencije, navodeći mnoge da se okrenu proučavanju difuzije. Novi članci o tekst-u-video, tekst u 3D, slika nepisanje, audio generacija, difuziju za superrezolucija, pa čak i stvaranje pokreta počelo se pojavljivati svakih nekoliko tjedana.

Difuzija teksta u sliku

Kao što smo ranije spomenuli, smanjenje i eliminacija šuma obično su glavne komponente procesa difuzije u kontekstu modaliteta slike, pa se UNet i njegove mnoge varijacije često koriste kao temeljna arhitektura.

Bitno je da se taj tekst na neki način uzme u obzir tijekom generiranja kako bi se na temelju njega stvorila slika. Autori knjige OpenAI članak o modelu GLIDE predložio je izmjenu pristupa vođenju bez klasifikatora za tekst.

Upotreba smrznutih prethodno ozračenih kodera teksta i mehanizma poboljšanja kaskadne razlučivosti u budućnosti znatno su poboljšali proizvodnju teksta (Slika). Ispostavilo se da nema potrebe trenirati tekstualni dio modeli teksta u sliku budući da je korištenje zamrznutog T5-xxl rezultiralo znatno poboljšanom kvalitetom slike i razumijevanjem teksta te je koristilo mnogo manje resursa za obuku.

Autori a Latentna difuzija članak je pokazao da komponenta slike zapravo ne zahtijeva obuku (bar ne u potpunosti). Učenje će se odvijati još brže ako koristimo moćni autokoder slike (VQ-VAE ili KL-VAE) kao vizualni dekoder i pokušamo generirati ugradnje iz njegovog latentnog prostora difuzijom, a ne samom slikom. Ova metodologija također je temelj nedavno objavljene Stable Diffusion model.

Kandinski 2.0 AI model

Uz nekoliko ključnih poboljšanja, Kandinsky 2.0 temelji se na poboljšanoj tehnici latentne difuzije (mi ne izrađujemo slike, već njihove latentne vektore):

Upotrijebljena su dva višejezična kodera teksta i spojena njihova ugrađivanja.
Dodan UNet (1.2 milijarde parametara).
Dinamički prag postupka uzorkovanja.

Istraživači su istovremeno koristili dva višejezična kodera — XLMR-clip i mT5-small — kako bi napravili model stvarno višejezičan. Stoga, uz engleski, ruski, francuski i njemački, model također može razumjeti jezike kao što su mongolski, hebrejski i farsi. AI poznaje ukupno 101 jezik. Zašto je odlučeno kodirati tekst pomoću dva modela istovremeno? Budući da XLMR-clip ima slike i pruža bliske ugradnje za razne jezike, a mT5-small može razumjeti složene tekstove, ovi modeli imaju različite, ali ključne značajke. Budući da oba modela imaju samo mali broj parametara (560M i 146M), kao što su pokazali naši preliminarni testovi, odlučeno je koristiti dva enkodera istovremeno.

Svježe generirane slike Kandinsky 2.0 AI modela ispod:

Kako je provedena obuka modela Kandinsky 2.0?

Za obuku su korištena Christofari superračunala na platformi ML Space. Bilo je potrebno 196 NVIDIA A100 kartica, svaka s 80 GB RAM-a. Bilo je potrebno 14 dana, ili 65,856 GPU-sati, da se završi obuka. Analiza je trajala pet dana pri rezoluciji 256 × 256, zatim šest dana pri rezoluciji 512 × 512, zatim dodatna tri dana na najčistijim podacima.

Kao podaci za obuku, kombinirani su mnogi skupovi podataka koji su bili unaprijed filtrirani za vodene žigove, nisku rezoluciju i slabo pridržavanje opisa teksta mjereno metrikom CLIP-score.

Višejezična generacija

Kandinsky 2.0 je prvi višejezični model za stvaranje slika od riječi, dajući nam prvu priliku za procjenu jezičnih i vizualnih promjena u različitim jezičnim kulturama. Ishodi prevođenja istog upita na nekoliko jezika prikazani su u nastavku. Na primjer, samo se bijelci pojavljuju u rezultatima generacije za ruski upit "osoba s visokim obrazovanjem", dok su rezultati za francuski prijevod "Photo d'une personne diplômée de l'enseignement supérieur" raznolikiji. Želio bih istaknuti da su ožalošćeni ljudi s visokim obrazovanjem prisutni samo u izdanju na ruskom jeziku.

Iako postoji još tona pokusa s ogromnim jezičnim modelima i planiranim različitim metodama difuzijskog procesa, već sada možemo sa sigurnošću tvrditi da je Kandinsky 2.0 prvi potpuno višejezični diseminacijski model! Na Web mjesto FusionBrain i google colab, možete vidjeti primjere njezinih crteža.

Pročitajte više o AI:

Oznake:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.

Više članaka

Damir Yalalov