Noiembrie 23, 2022

Sber AI a prezentat Kandinsky 2.0, primul model text-to-image pentru generare în peste 100 de limbi

Publicat: 23 noiembrie 2022 la 1:23 Actualizat: 23 noiembrie 2022 la 1:23

Pe scurt

Kandinsky 2.0, primul model de difuzie multilingv, a fost creat și instruit de cercetătorii Sber AI cu asistența cercetătorilor de la Institutul AI de Inteligență Artificială, folosind setul de date combinat de 1 miliard de perechi text-imagine de la Sber AI și SberDevices.

Difuziunea înlocuiește din ce în ce mai mult GAN-urile și modelele autoregresive într-o serie de sarcini de procesare a imaginilor digitale. Acest lucru nu este surprinzător deoarece difuzia este mai ușor de învățat, nu necesită o selecție complexă de hiperparametri, optimizare min-max și nu suferă de instabilitate în învățare. Și, cel mai important, modelele de difuzare demonstrează rezultate de ultimă generație pentru aproape toate sarcinile generative - generarea de imagini prin text, generarea de sunet, video și chiar 3D.

Sber AI a prezentat Kandinsky 2.0, primul model text-to-image pentru generare în peste 100 de limbi — Imaginea creată de Kandinsky AI

Din păcate, cea mai mare parte a lucrărilor din domeniul text-to-something se concentrează doar pe engleză și chineză. Pentru a corecta această nedreptate, Sber AI a decis să creeze un model multilingv de difuzare text-la-imagine Kandinsky 2.0, care înțelege interogările în mai mult de 100 de limbi. Față îmbrățișată oferă deja Kandinsky 2.0. Cercetătorii de la SberAI și SberDevices au a colaborat cu experți de la Institutul AI de Inteligență Artificială pe acest proiect.

Ce este difuzia?

În articolul din 2015 Învățare profundă nesupravegheată folosind termodinamica de neechilibru, modelele de difuzie au fost descrise pentru prima dată ca actul de amestecare a unei substanțe care rezultă în difuzie, care egalizează distribuția. După cum sugerează titlul articolului, ei au abordat explicarea modelelor de difuzie prin intermediul termodinamicii.

În cazul imaginilor, un astfel de proces ar putea semăna, de exemplu, cu eliminarea treptată a zgomotului gaussian din imagine.

Lucrarea Modele de difuzie Bate GANs on Image Synthesis, publicat în 2021, a fost primul care a arătat superioritatea modelelor de difuzie față de GANS. Autorii au conceput, de asemenea, abordarea de control de prima generație (condiționare), pe care au numit-o ghidare clasificatoare. Această metodă creează obiecte care se potrivesc cu clasa dorită folosind gradienți dintr-un clasificator diferit (de exemplu, câini). Prin mecanismul Adaptive Group Norm, care presupune prognozarea coeficienților de normalizare, se realizează controlul în sine.

Acest articol poate fi văzut ca un punct de cotitură în domeniul IA generativă, determinând pe mulți să se îndrepte către studiul difuzării. Articole noi despre text-to-video, text-to-3D, imagine vopsirea, generare audio, difuzie pentru suprarezoluție, și chiar și generarea de mișcare a început să apară la fiecare câteva săptămâni.

Difuzare de la text la imagine

După cum am menționat mai devreme, reducerea și eliminarea zgomotului sunt de obicei principalele componente ale proceselor de difuzie în contextul modalităților de imagine, astfel încât UNet și numeroasele sale variații sunt frecvent utilizate ca arhitectură fundamentală.

Este esențial ca acest text să fie luat în considerare într-un fel în timpul generației pentru a crea o imagine pe baza acestuia. Autorii lui OpenAI articolul despre modelul GLIDE a sugerat modificarea abordării de ghidare fără clasificator pentru text.

Utilizarea codificatoarelor de text pre-iradiate înghețate și a mecanismului de îmbunătățire a rezoluției în cascadă în viitor a îmbunătățit considerabil producția de text (Imagine). S-a dovedit că nu era nevoie să antrenați porțiunea de text a modele text-to-image deoarece folosirea T5-xxl înghețată a dus la îmbunătățirea considerabil a calității imaginii și a înțelegerii textului și a folosit mult mai puține resurse de instruire.

Autorii unei Difuzia latentă articolul a demonstrat că componenta imagine de fapt nu necesită pregătire (cel puțin nu complet). Învățarea va continua și mai rapid dacă folosim un autoencoder puternic de imagine (VQ-VAE sau KL-VAE) ca decodor vizual și încercăm să generăm înglobări din spațiul său latent prin difuzie, mai degrabă decât imaginea în sine. Această metodologie este, de asemenea, fundamentul recent lansat Stable Diffusion model.

Model Kandinsky 2.0 AI

Cu câteva îmbunătățiri cheie, Kandinsky 2.0 se bazează pe o tehnică îmbunătățită de difuzare latentă (nu facem imagini, ci mai degrabă vectorii lor latenți):

Au folosit două codificatoare de text multilingve și și-au concatenat înglobările.
S-a adăugat UNet (1.2 miliarde de parametri).
Procedura de prelevare a pragului dinamic.

Cercetătorii au folosit simultan două codificatoare multilingve - XLMR-clip și mT5-small - pentru a face model cu adevărat multilingv. Prin urmare, pe lângă engleză, rusă, franceză și germană, modelul poate înțelege și limbi precum mongolă, ebraică și farsi. AI cunoaște un total de 101 de limbi. De ce s-a decis codificarea textului folosind două modele simultan? Deoarece XLMR-clip a văzut imagini și oferă încorporare apropiate pentru diferite limbi, iar mT5-small este capabil să înțeleagă texte complexe, aceste modele au caracteristici diferite, dar cruciale. Deoarece ambele modele au doar un număr mic de parametri (560M și 146M), așa cum au demonstrat testele noastre preliminare, s-a decis să se utilizeze simultan două encodere.

Imagini proaspăt generate de modelul Kandinsky 2.0 AI de mai jos:

Cum a fost realizat antrenamentul model Kandinsky 2.0?

Supercomputerele Christofari au fost utilizate pentru antrenament pe platforma ML Space. A fost nevoie de 196 de carduri NVIDIA A100, fiecare cu 80 GB de RAM. A fost nevoie de 14 zile sau 65,856 de ore GPU pentru a finaliza instruirea. Analiza a durat cinci zile la rezoluție de 256 × 256, urmate de șase zile la rezoluție de 512 × 512, apoi trei zile suplimentare pentru cele mai pure date.

Ca date de antrenament, au fost combinate multe seturi de date care au fost prefiltrate pentru filigrane, rezoluție scăzută și aderență scăzută la descrierea textului, măsurată de metrica scor CLIP.

Generație multilingvă

Kandinsky 2.0 este primul model multilingv pentru crearea de imagini din cuvinte, oferindu-ne prima șansă de a evalua schimbările lingvistice și vizuale din culturile lingvistice. Rezultatele traducerii aceleiași interogări în mai multe limbi sunt prezentate mai jos. De exemplu, numai bărbații albi apar în rezultatele generației pentru interogarea rusă „o persoană cu studii superioare”, în timp ce rezultatele pentru traducerea în franceză, „Photo d'une personne diplômée de l'enseignement supérieur”, sunt mai diversificate. Aș dori să subliniez că oamenii îndurerați cu studii superioare sunt prezenți doar în ediția în limba rusă.

Deși există încă o mulțime de încercări cu modele uriașe de limbaj și diferite metode ale procesului de difuzare planificate, putem deja să afirmăm cu încredere că Kandinsky 2.0 este primul model de diseminare complet multilingv! Pe Site-ul FusionBrain și google colab, puteți vedea exemple din desenele ei.

Citiți mai multe despre AI:

Etichete:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.

Mai multe articole

Damir Yalalov