Naujienų ataskaita Technologija
Lapkritis 23, 2022

Sber AI pristatė Kandinsky 2.0 – pirmąjį teksto į vaizdą modelį, skirtą generuoti daugiau nei 100 kalbų

Trumpai

Kandinsky 2.0, pirmąjį daugiakalbį sklaidos modelį, sukūrė ir apmokė Sber AI tyrėjai, padedami dirbtinio intelekto instituto tyrėjų, naudodami jungtinį 1 milijardo teksto vaizdų porų iš Sber AI ir SberDevices duomenų rinkinį.

Difuzija vis dažniau pakeičia GAN ir autoregresinius modelius daugelyje skaitmeninio vaizdo apdorojimo užduočių. Tai nenuostabu, nes difuzija yra lengviau išmokstama, nereikalauja kompleksinio hiperparametrų pasirinkimo, min-max optimizavimo ir nenukenčia nuo mokymosi nestabilumo. Ir svarbiausia, kad sklaidos modeliai demonstruoja naujausius rezultatus atliekant beveik visas generavimo užduotis – vaizdo generavimą pagal tekstą, garso generavimą, vaizdo įrašą ir net 3D.

Sber AI pristatė Kandinsky 2.0 – pirmąjį teksto į vaizdą modelį, skirtą generuoti daugiau nei 100 kalbų
Kandinsky AI sukurtas vaizdas

Deja, didžioji dalis teksto į kažką pakeitimo srities darbų skirta tik anglų ir kinų kalboms. Norėdami ištaisyti šią neteisybę, Sber AI nusprendė sukurti daugiakalbis teksto į vaizdą sklaidos modelis Kandinsky 2.0, kuris supranta užklausas daugiau nei 100 kalbų. ApkabinantisVeidas jau siūlo Kandinsky 2.0. SberAI ir SberDevices mokslininkai turi bendradarbiavo su šio projekto ekspertais iš AI Dirbtinio intelekto instituto.

Kas yra difuzija?

Straipsnyje 2015 m Gilus neprižiūrimas mokymasis naudojant nepusiausvyrą termodinamiką, difuzijos modeliai pirmą kartą buvo apibūdinti kaip medžiagos maišymo veiksmas, dėl kurio susidaro difuzija, kuri išlygina pasiskirstymą. Kaip rodo straipsnio pavadinimas, jie priartėjo prie difuzijos modelių paaiškinimo per termodinamiką.

Vaizdų atveju toks procesas gali būti panašus į, pavyzdžiui, laipsnišką Gauso triukšmo pašalinimą iš vaizdo.

Popieriaus difuzijos modeliai Ritmas 2021 m. paskelbtas GANs on Image Synthesis buvo pirmasis, kuris parodė difuzijos modelių pranašumą prieš GANS. Autoriai taip pat sukūrė pirmosios kartos kontrolės metodą (kondicionavimą), kurį pavadino klasifikatoriaus gairėmis. Šis metodas sukuria objektus, kurie tinka numatytai klasei, naudojant gradientus iš kito klasifikatoriaus (pavyzdžiui, šunų). Per Adaptive Group Norm mechanizmą, kuris apima normalizavimo koeficientų prognozavimą, vykdoma pati kontrolė.

Šis straipsnis gali būti vertinamas kaip lūžio taškas generatyvaus AI srityje, dėl kurio daugelis kreipiasi į difuzijos tyrimą. Nauji straipsniai apie tekstas į vaizdo įrašą, tekstas į 3D, vaizdas tapyba, garso generavimas, difuzija už super raiška, ir net judesio karta pradėjo atsirasti kas kelias savaites.

Teksto į vaizdą sklaida

Kaip minėjome anksčiau, triukšmo mažinimas ir triukšmo pašalinimas paprastai yra pagrindiniai difuzijos procesų komponentai vaizdo modalumo kontekste, todėl UNet ir daugybė jo variantų dažnai naudojami kaip pagrindinė architektūra.

Teksto į vaizdą sklaida
Teksto į vaizdą sklaida

Svarbu, kad į šį tekstą būtų kažkaip atsižvelgta generuojant, kad pagal jį būtų sukurtas vaizdas. Autoriai OpenAI Straipsnyje apie GLIDE modelį buvo pasiūlyta pakeisti teksto orientavimo metodą be klasifikatoriaus.

Ateityje naudojant šaldytus iš anksto apšvitintus teksto koduotuvus ir kaskados skiriamosios gebos didinimo mechanizmą, žymiai pagerėjo teksto gamyba (Vaizdas). Paaiškėjo, kad teksto dalies mokyti nereikia teksto į vaizdą modeliai nes naudojant šaldytą T5-xxl žymiai pagerėjo vaizdo kokybė ir teksto supratimas bei sunaudota daug mažiau mokymo išteklių.

Autoriai a Latentinė difuzija Straipsnis parodė, kad paveikslėlio komponentas iš tikrųjų nereikalauja mokymo (bent jau ne visiškai). Mokymasis vyks dar greičiau, jei naudosime galingą vaizdo automatinį kodavimo įrenginį (VQ-VAE arba KL-VAE) kaip vaizdinį dekoderį ir bandysime generuoti įterpimus iš latentinės erdvės difuzijos būdu, o ne patį vaizdą. Ši metodika taip pat yra neseniai išleistos programos pagrindas Stable Diffusion modelis.

Kandinsky 2.0 AI modelis

Su keliais pagrindiniais patobulinimais, Kandinsky 2.0 yra pagrįsta patobulinta latentinės difuzijos technika (kuriame ne vaizdus, ​​o latentinius jų vektorius):

  • Naudojo du daugiakalbius teksto koduotuvus ir sujungė jų įterpimus.
  • Pridėtas UNet (1.2 milijardo parametrų).
  • Atrankos procedūros dinaminis slenkstis.
Kandinsky 2.0 AI modelis
Kandinsky 2.0 AI modelis

Norėdami sukurti modelis tikrai daugiakalbis. Todėl modelis gali suprasti ne tik anglų, rusų, prancūzų ir vokiečių kalbas, bet ir tokias kalbas kaip mongolų, hebrajų ir persų. AI iš viso moka 101 kalbą. Kodėl buvo nuspręsta koduoti tekstą naudojant du modelius vienu metu? Kadangi XLMR klipas matė paveikslėlius ir pateikia glaudžius įterpimus įvairioms kalboms, o mT5-small gali suprasti sudėtingus tekstus, šie modeliai turi skirtingas, bet esmines savybes. Kadangi abu modeliai turi tik nedaug parametrų (560M ir 146M), kaip parodė mūsų preliminarūs bandymai, buvo nuspręsta vienu metu naudoti du kodavimo įrenginius.

Žemiau pateikiami naujai sukurti Kandinsky 2.0 AI modelio vaizdai:

Kaip vyko Kandinsky 2.0 modelio mokymas?

Mokymams ML Space platformoje buvo naudojami Christofari superkompiuteriai. Tam reikėjo 196 NVIDIA A100 kortelių, kurių kiekviena turi 80 GB RAM. Mokymui atlikti prireikė 14 dienų arba 65,856 256 GPU valandų. Analizė truko penkias dienas 256 × 512 raiška, po to šešias dienas 512 × XNUMX skiriamąja geba, tada dar tris dienas gryniausiais duomenimis.

Kaip treniruočių duomenys buvo sujungti daug duomenų rinkinių, kurie buvo iš anksto išfiltruoti dėl vandens ženklų, mažos skiriamosios gebos ir prasto teksto aprašymo laikymosi, matuojant pagal CLIP balo metriką.

Daugiakalbė karta

Kandinsky 2.0 yra pirmasis daugiakalbis vaizdų kūrimo iš žodžių modelis, suteikiantis pirmąją galimybę įvertinti kalbinius ir vizualinius pokyčius įvairiose kalbų kultūrose. Toliau pateikiami tos pačios užklausos vertimo į kelias kalbas rezultatai. Pavyzdžiui, rusiškos užklausos „aukštąjį išsilavinimą turintis asmuo“ kartos rezultatuose rodomi tik baltieji vyrai, o prancūziško vertimo „Photo d'une personne diplômée de l'enseignement supérieur“ rezultatai yra įvairesni. Noriu atkreipti dėmesį, kad liūdni žmonės, turintys aukštąjį išsilavinimą, yra tik leidime rusų kalba.

Daugiakalbė karta
Raginimas: plėšikas (1. rusų, 2. anglų, 3. hindi)
Daugiakalbė karta
Klausimas: asmuo, turintis aukštąjį išsilavinimą (1. rusų, 2. prancūzų, 3. kinų)
Daugiakalbė karta
Raginimas: nacionalinis patiekalas (1. rusų, 2. japonų, 3. hindi)

Nors vis dar yra daugybė bandymų su didžiuliais kalbų modeliais ir skirtingais sklaidos proceso metodais, jau dabar galime drąsiai teigti, kad Kandinsky 2.0 yra pirmasis visiškai daugiakalbis sklaidos modelis! Ant „FusionBrain“ svetainė ir „Google Colab“, galite pamatyti jos piešinių pavyzdžių.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau

Samourai piniginės įkūrėjai apkaltinti palengvinę 2 mlrd. USD „Darknet“ sandorius

„Samourai Wallet“ įkūrėjų nuogąstavimai yra reikšmingas pramonės nuosmukis, pabrėžiantis nuolatinį ...

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
Honkongo įstatymų leidžiamosios tarybos narys Wu Jiezhuangas pareiškia civilinį ieškinį prieš JPEX kriptovaliutų biržą
Atsakingas verslas Naujienų ataskaita Technologija
Honkongo įstatymų leidžiamosios tarybos narys Wu Jiezhuangas pareiškia civilinį ieškinį prieš JPEX kriptovaliutų biržą
Gali 2, 2024
„AltLayer“ pradeda antrąjį savo statymo iniciatyvos etapą, pristato „realaus žetoną“.
rinkos Naujienų ataskaita Technologija
„AltLayer“ pradeda antrąjį savo statymo iniciatyvos etapą, pristato „realaus žetoną“.
Gali 2, 2024
BNB tinklo 1 m. pirmojo ketvirčio ataskaitoje pabrėžiama, kad jos vertė sumažėjo 2024 proc., o BSC TVL pakilo 55.8 proc.
rinkos Naujienų ataskaita Technologija
BNB tinklo 1 m. pirmojo ketvirčio ataskaitoje pabrėžiama, kad jos vertė sumažėjo 2024 proc., o BSC TVL pakilo 55.8 proc.
Gali 2, 2024
Naver ir Kakao Kaia: Naujoji Azijos blokų grandinės jėgainė, pasirengusi sutrikdyti pasaulines kriptovaliutų rinkas
Atsakingas verslas programinė įranga Istorijos ir apžvalgos Technologija
Naver ir Kakao Kaia: Naujoji Azijos blokų grandinės jėgainė, pasirengusi sutrikdyti pasaulines kriptovaliutų rinkas
Gali 2, 2024
CRYPTOMERIA LABS PTE. LTD.