November 23, 2022

Sber AI je predstavil Kandinsky 2.0, prvi model besedila v sliko za generiranje v več kot 100 jezikih

Objavljeno: 23. november 2022 ob 1 Posodobljeno: 23. november 23 ob 2022

Na kratko

Kandinsky 2.0, prvi večjezični difuzijski model, so ustvarili in usposobili raziskovalci Sber AI s pomočjo raziskovalcev z AI Institute of Artificial Intelligence z uporabo kombiniranega nabora podatkov 1 milijarde parov besedilo-slika iz Sber AI in SberDevices

Difuzija vedno bolj nadomešča GAN in avtoregresivne modele v številnih nalogah digitalne obdelave slik. To ni presenetljivo, saj se je difuzije lažje naučiti, ne zahteva zapletene izbire hiperparametrov, minimalno-max optimizacije in ne trpi zaradi učne nestabilnosti. In kar je najpomembnejše, difuzijski modeli prikazujejo najsodobnejše rezultate pri skoraj vseh generativnih opravilih – ustvarjanje slike z besedilom, ustvarjanje zvoka, videa in celo 3D.

Sber AI je predstavil Kandinsky 2.0, prvi model besedila v sliko za generiranje v več kot 100 jezikih — Slika, ki jo je ustvaril Kandinsky AI

Na žalost se večina dela na področju pretvorbe besedila v nekaj osredotoča samo na angleščino in kitajščino. Da bi popravil to krivico, Sber AI odločil ustvariti večjezični model difuzije besedila v sliko Kandinsky 2.0, ki razume poizvedbe v več kot 100 jezikih. HuggingFace že ponuja Kandinsky 2.0. Raziskovalci iz SberAI in SberDevices so sodeloval s strokovnjaki z Inštituta za umetno inteligenco pri tem projektu.

Kaj je difuzija?

V članku iz leta 2015 Globoko nenadzorovano učenje z uporabo neravnotežne termodinamike, so bili difuzijski modeli najprej opisani kot dejanje mešanja snovi, ki ima za posledico difuzijo, ki izenači porazdelitev. Kot pove že naslov članka, sta k razlagi difuzijskih modelov pristopila skozi okvire termodinamike.

V primeru slik lahko takšen postopek na primer spominja na postopno odstranjevanje Gaussovega šuma iz slike.

Papirnati difuzijski modeli Beat GANs on Image Synthesis, objavljen leta 2021, je bil prvi, ki je pokazal superiornost difuzijskih modelov pred GANS. Avtorja sta zasnovala tudi nadzorni pristop prve generacije (kondicioniranje), ki sta ga poimenovala klasifikatorsko vodenje. Ta metoda ustvari predmete, ki ustrezajo predvidenemu razredu z uporabo prelivov iz drugega klasifikatorja (na primer psi). Preko mehanizma Adaptive Group Norm, ki vključuje napoved normalizacijskih koeficientov, se izvaja sam nadzor.

Ta članek lahko razumemo kot prelomnico na področju generativne umetne inteligence, zaradi česar so se mnogi obrnili k študiju difuzije. Novi članki o besedilo v video, besedilo v 3D, slika slikanje, ustvarjanje zvoka, difuzijo za superločljivostin celo ustvarjanje gibanja se je začelo pojavljati vsakih nekaj tednov.

Difuzija besedila v sliko

Kot smo že omenili, sta zmanjševanje in odstranjevanje šuma običajno glavni komponenti difuzijskih procesov v kontekstu modalitet slike, zato se UNet in njegove številne različice pogosto uporabljajo kot temeljna arhitektura.

Bistveno je, da se to besedilo pri generiranju na nek način upošteva, da se na njegovi podlagi ustvari podoba. Avtorji knjige OpenAI članek o modelu GLIDE je predlagal spremembo pristopa vodenja brez klasifikatorjev za besedilo.

Uporaba zamrznjenih predhodno obsevanih kodirnikov besedila in kaskadnega mehanizma za izboljšanje ločljivosti v prihodnosti je znatno izboljšala produkcijo besedila (Slika). Izkazalo se je, da besedilnega dela ni bilo treba trenirati modeli besedila v sliko saj je uporaba zamrznjenega T5-xxl povzročila znatno izboljšano kakovost slike in razumevanje besedila ter porabila veliko manj sredstev za usposabljanje.

Avtorji a Latentna difuzija Članek je pokazal, da slikovna komponenta dejansko ne zahteva usposabljanja (vsaj ne v celoti). Učenje bo potekalo še hitreje, če bomo kot vizualni dekoder uporabili zmogljiv avtokodirnik slike (VQ-VAE ali KL-VAE) in poskušali generirati vdelave iz njegovega latentnega prostora z difuzijo in ne slike same. Ta metodologija je tudi temelj nedavno izdane Stable Diffusion Model.

Model Kandinsky 2.0 AI

Z nekaj ključnimi izboljšavami Kandinsky 2.0 temelji na izboljšani tehniki latentne difuzije (ne izdelujemo slik, temveč njihove latentne vektorje):

Uporabil je dva večjezična kodirnika besedila in združil njune vdelave.
Dodan UNet (1.2 milijarde parametrov).
Dinamično določanje praga postopka vzorčenja.

Raziskovalci so hkrati uporabili dva večjezična kodirnika – XLMR-clip in mT5-small – da bi naredili Model res večjezični. Zato lahko model poleg angleščine, ruščine, francoščine in nemščine razume tudi jezike, kot so mongolščina, hebrejščina in farsi. AI pozna skupno 101 jezik. Zakaj je bilo odločeno kodirati besedilo z uporabo dveh modelov hkrati? Ker je XLMR-clip videl slike in zagotavlja tesne vdelave za različne jezike, mT5-small pa je sposoben razumeti kompleksna besedila, imajo ti modeli različne, a ključne lastnosti. Ker imata oba modela le majhno število parametrov (560M in 146M), kot so pokazali naši preliminarni testi, smo se odločili, da uporabimo dva kodirnika hkrati.

Sveže ustvarjene slike modela Kandinsky 2.0 AI spodaj:

Kako je potekalo usposabljanje modela Kandinski 2.0?

Za usposabljanje na platformi ML Space so bili uporabljeni superračunalniki Christofari. Zahteval je 196 kartic NVIDIA A100, vsaka z 80 GB RAM-a. Za dokončanje usposabljanja je bilo potrebnih 14 dni ali 65,856 GPU-ur. Analiza je trajala pet dni pri ločljivosti 256 × 256, sledilo je šest dni pri ločljivosti 512 × 512, nato pa še tri dni pri najčistejših podatkih.

Kot podatki za usposabljanje so bili združeni številni nabori podatkov, ki so bili predhodno filtrirani glede vodnih žigov, nizke ločljivosti in nizkega upoštevanja besedilnega opisa, merjeno z metriko CLIP-score.

Večjezična generacija

Kandinsky 2.0 je prvi večjezični model za ustvarjanje slik iz besed, ki nam daje prvo priložnost za oceno jezikovnih in vizualnih sprememb v jezikovnih kulturah. Spodaj so prikazani rezultati prevajanja iste poizvedbe v več jezikov. Na primer, v rezultatih generiranja za rusko poizvedbo »oseba z višjo izobrazbo« se pojavijo samo belci, medtem ko so rezultati za francoski prevod »Photo d'une personne diplômée de l'enseignement supérieur« bolj raznovrstni. Rad bi poudaril, da so žalostni ljudje z visoko izobrazbo prisotni samo v izdaji v ruskem jeziku.

Čeprav je pred nami še ogromno poskusov z ogromnimi jezikovnimi modeli in načrtovanimi različnimi metodami difuzijskega procesa, lahko že z gotovostjo trdimo, da je Kandinsky 2.0 prvi popolnoma večjezični diseminacijski model! Na Spletno mesto FusionBrain in google colab, lahko vidite primere njenih risb.

Preberite več o AI:

Tags:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.

več člankov

Damir Yalalov