Marraskuussa 23, 2022

Sber AI on esitellyt Kandinsky 2.0:n, ensimmäisen tekstistä kuvaksi -mallin yli 100 kielellä.

Julkaistu: 23. marraskuuta 2022 klo 1 Päivitetty: 23. marraskuuta 23 klo 2022

Lyhyesti

Kandinsky 2.0, ensimmäinen monikielinen diffuusiomalli, loivat ja kouluttivat Sber AI -tutkijat Tekoälyinstituutin tutkijoiden avustuksella käyttämällä Sber AI:n ja SberDevicesin 1 miljardin tekstikuvaparin yhdistettyä tietojoukkoa.

Diffuusio korvaa yhä useammin GAN:t ja autoregressiiviset mallit useissa digitaalisissa kuvankäsittelytehtävissä. Tämä ei ole yllättävää, koska diffuusio on helpompi oppia, se ei vaadi monimutkaista hyperparametrien valintaa, min-max optimointia eikä kärsi oppimisen epävakaudesta. Ja mikä tärkeintä, diffuusiomallit osoittavat huippuluokan tuloksia lähes kaikissa generatiivisissa tehtävissä – kuvan luominen tekstin mukaan, äänen tuottaminen, video ja jopa 3D.

Sber AI on esitellyt Kandinsky 2.0:n, ensimmäisen tekstistä kuvaksi -mallin yli 100 kielellä. — Kandinsky AI:n luoma kuva

Valitettavasti suurin osa työstä tekstin muuntamisen alalla keskittyy vain englanniksi ja kiinaksi. Tämän epäoikeudenmukaisuuden korjaamiseksi Sber AI päätti luoda monikielinen tekstistä kuvaksi diffuusiomalli Kandinsky 2.0, joka ymmärtää kyselyt yli 100 kielellä. HalaaKasvot tarjoaa jo Kandinsky 2.0:n. SberAI:n ja SberDevicesin tutkijat ovat tehneet yhteistyötä Tekoälyinstituutin asiantuntijoiden kanssa tässä projektissa.

Mikä on diffuusio?

Vuoden 2015 artikkelissa Syvä valvomaton oppiminen epätasapainoisen termodynamiikan avulla, diffuusiomalleja kuvattiin ensin aineen sekoittamisena, mikä johtaa diffuusioon, joka tasoittaa jakautumisen. Kuten artikkelin otsikko antaa ymmärtää, he lähestyivät diffuusiomallien selitystä termodynamiikan viitekehyksen kautta.

Kuvien tapauksessa tällainen prosessi saattaa muistuttaa esimerkiksi Gaussin kohinan asteittaista poistamista kuvasta.

Paperin diffuusiomallit Voittaa GANs on Image Synthesis, joka julkaistiin vuonna 2021, oli ensimmäinen, joka osoitti diffuusiomallien paremmuuden GANSiin verrattuna. Kirjoittajat kehittivät myös ensimmäisen sukupolven ohjausmenetelmän (conditioning), jonka he nimesivät luokittelijaohjaukseksi. Tämä menetelmä luo objekteja, jotka sopivat aiottuun luokkaan käyttämällä eri luokittelijan gradientteja (esimerkiksi koirat). Adaptive Group Norm -mekanismin kautta, joka sisältää normalisointikertoimien ennustamisen, itse ohjaus suoritetaan.

Tätä artikkelia voidaan pitää käännekohtana generatiivisen tekoälyn alalla, mikä saa monet kääntymään diffuusion tutkimukseen. Uusia artikkeleita aiheesta tekstistä videoksi, tekstistä 3D:ksi, kuva maalaaminen, äänen sukupolvi, diffuusio varten superresoluutio, ja jopa liikettä alkoi ilmestyä muutaman viikon välein.

Tekstistä kuvaksi diffuusio

Kuten aiemmin mainitsimme, kohinanvaimennus ja kohinan eliminointi ovat tyypillisesti diffuusioprosessien pääkomponentteja kuvamodaliteettien yhteydessä, joten UNetiä ja sen monia muunnelmia käytetään usein perusarkkitehtuurina.

Olennaista on, että tämä teksti otetaan jollain tavalla huomioon sukupolven aikana, jotta siitä voidaan luoda mielikuva. Tekijät OpenAI GLIDE-mallia käsittelevä artikkeli ehdotti luokittelemattoman tekstin opastuslähestymistavan muuttamista.

Jäädytettyjen esisäteilytettyjen tekstienkooderien ja kaskadiresoluutioparannusmekanismin käyttö tulevaisuudessa paransi tekstin tuotantoa huomattavasti (Kuva). Kävi ilmi, ettei tekstiosaa tarvinnut kouluttaa tekstistä kuvaksi -mallit koska jäädytetyn T5-xxl:n käyttö paransi huomattavasti kuvanlaatua ja tekstin ymmärtämistä ja käytti paljon vähemmän koulutusresursseja.

Kirjoittajat a Piilevä diffuusio artikkeli osoitti, että kuvakomponentti ei itse asiassa vaadi koulutusta (ainakaan täysin). Oppiminen etenee vielä nopeammin, jos käytämme visuaalisena dekooderina tehokasta kuvan autoenkooderia (VQ-VAE tai KL-VAE) ja yritämme luoda upotuksia sen piilevasta tilasta diffuusion avulla eikä itse kuvaa. Tämä menetelmä on myös äskettäin julkaistun perusta Stable Diffusion malli.

Kandinsky 2.0 AI malli

Muutaman keskeisen parannuksella Kandinsky 2.0 perustuu parannettuun piilevään diffuusiotekniikkaan (emme tee kuvia, vaan niiden piileviä vektoreita):

Käytti kahta monikielistä tekstienkooderia ja ketjutti niiden upotukset.
Lisätty UNet (1.2 miljardia parametria).
Näytteenottomenettelyn dynaaminen kynnys.

Tutkijat käyttivät kahta monikielistä enkooderia samanaikaisesti – XLMR-klipsiä ja mT5-smalliä – saadakseen malli todella monikielinen. Siksi malli voi ymmärtää englannin, venäjän, ranskan ja saksan lisäksi myös kieliä, kuten mongolia, heprea ja farsi. Tekoäly osaa yhteensä 101 kieltä. Miksi teksti päätettiin koodata käyttämällä kahta mallia samanaikaisesti? Koska XLMR-clip on nähnyt kuvia ja tarjoaa läheisiä upotuksia eri kielille ja mT5-small pystyy ymmärtämään monimutkaisia tekstejä, näissä malleissa on erilaisia, mutta tärkeitä ominaisuuksia. Koska molemmissa malleissa on vain pieni määrä parametreja (560M ja 146M), kuten alustavat testimme osoittavat, päätettiin käyttää kahta enkooderia samanaikaisesti.

Alla tuoreet kuvat Kandinsky 2.0 AI -mallilla:

Miten Kandinsky 2.0 -mallikoulutus suoritettiin?

Koulutuksessa hyödynnettiin Christofarin supertietokoneita ML Space -alustalla. Se vaati 196 NVIDIA A100 -korttia, joista jokaisessa oli 80 Gt RAM-muistia. Koulutuksen suorittaminen kesti 14 päivää eli 65,856 256 GPU-tuntia. Analyysi kesti viisi päivää 256×512-resoluutiolla, jota seurasi kuusi päivää 512×XNUMX-resoluutiolla ja sitten vielä kolme päivää puhtaimmilla tiedoilla.

Harjoittelutietoina yhdistettiin monia tietojoukkoja, jotka oli esisuodatettu vesileimojen, alhaisen resoluution ja heikosti tekstikuvauksen suhteen CLIP-pistemittarilla mitattuna.

Monikielinen sukupolvi

Kandinsky 2.0 on ensimmäinen monikielinen malli kuvien luomiseen sanoista, ja se antaa meille ensimmäisen mahdollisuuden arvioida kielellisiä ja visuaalisia muutoksia eri kielikulttuureissa. Tulokset saman kyselyn kääntämisestä useille kielille on esitetty alla. Esimerkiksi venäjänkielisen kyselyn "korkeakoulututkinnon suorittanut henkilö" sukupolvituloksissa esiintyy vain valkoisia miehiä, kun taas ranskankielisen käännöksen "Photo d'une personne diplômée de l'enseignement supérieur" tulokset ovat monipuolisempia. Haluan huomauttaa, että surulliset korkeakoulutetut ihmiset ovat läsnä vain venäjänkielisessä versiossa.

Vaikka kokeita valtavilla kielimalleilla ja erilaisilla levitysprosessin menetelmillä on vielä suunnitteilla, voimme jo nyt varmuudella todeta, että Kandinsky 2.0 on ensimmäinen täysin monikielinen levitysmalli! Käytössä FusionBrain-verkkosivusto ja google colab, saatat nähdä esimerkkejä hänen piirustuksistaan.

Lue lisää tekoälystä:

Tunnisteet:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.

lisää artikkeleita

Damir Yalalov