Novembris 23, 2022

Sber AI ir prezentējis Kandinsky 2.0, pirmo teksta pārveides modeli, kas paredzēts ģenerēšanai vairāk nekā 100 valodās

Publicēts: 23. gada 2022. novembrī plkst. 1:23. Atjaunināts: 23. gada 2022. novembrī plkst. 1:23

Īsumā

Kandinsky 2.0, pirmo daudzvalodu difūzijas modeli, izveidoja un apmācīja Sber AI pētnieki ar AI Mākslīgā intelekta institūta pētnieku palīdzību, izmantojot Sber AI un SberDevices 1 miljarda teksta attēlu pāru apvienoto datu kopu.

Vairākos digitālo attēlu apstrādes uzdevumos difūzija arvien vairāk aizstāj GAN un autoregresīvos modeļus. Tas nav pārsteidzoši, jo difūziju ir vieglāk iemācīties, tai nav nepieciešama sarežģīta hiperparametru atlase, min-max optimizācija un tas necieš no mācīšanās nestabilitātes. Un vissvarīgākais ir tas, ka difūzijas modeļi demonstrē vismodernākos rezultātus gandrīz visos ģeneratīvajos uzdevumos — attēlu ģenerēšana pēc teksta, skaņas ģenerēšana, video un pat 3D.

Sber AI ir prezentējis Kandinsky 2.0, pirmo teksta pārveides modeli, kas paredzēts ģenerēšanai vairāk nekā 100 valodās — Attēls, ko izveidojis Kandinsky AI

Diemžēl lielākā daļa darba teksta pārveidošanas jomā ir vērsta tikai uz angļu un ķīniešu valodu. Lai labotu šo netaisnību, Sber AI nolēma izveidot daudzvalodu teksta-attēlu difūzijas modelis Kandinsky 2.0, kas saprot vaicājumus vairāk nekā 100 valodās. HuggingFace jau piedāvā Kandinsky 2.0. Pētnieki no SberAI un SberDevices ir sadarbojās ar ekspertiem no AI Mākslīgā intelekta institūta par šo projektu.

Kas ir difūzija?

2015. gada rakstā Dziļa bez uzraudzības mācīšanās, izmantojot nelīdzsvarotu termodinamiku, difūzijas modeļi vispirms tika aprakstīti kā vielas sajaukšanas darbība, kas izraisa difūziju, kas izlīdzina sadalījumu. Kā norāda raksta virsraksts, viņi difūzijas modeļu skaidrošanai pievērsās termodinamikas ietvaros.

Attēlu gadījumā šāds process varētu līdzināties, piemēram, pakāpeniskai Gausa trokšņa noņemšanai no attēla.

Papīra difūzijas modeļi Pārspēt 2021. gadā publicētais GANs on Image Synthesis bija pirmais, kas parādīja difūzijas modeļu pārākumu pār GANS. Autori arī izstrādāja pirmās paaudzes kontroles pieeju (kondicionēšanu), ko viņi nosauca par klasifikatora norādījumiem. Šī metode rada objektus, kas atbilst paredzētajai klasei, izmantojot gradientus no cita klasifikatora (piemēram, suņiem). Izmantojot adaptīvās grupas normas mehānismu, kas ietver normalizācijas koeficientu prognozēšanu, tiek veikta pati kontrole.

Šo rakstu var uzskatīt par pagrieziena punktu ģeneratīvā AI jomā, kas liek daudziem pievērsties difūzijas izpētei. Jauni raksti par teksta pārvēršana video, tekstu 3D formātā, attēls gleznošana, audio paaudze, difūzija par superizšķirtspēja, un pat kustību ģenerēšana sāka parādīties ik pēc dažām nedēļām.

Teksta-attēlu difūzija

Kā jau minējām iepriekš, trokšņu samazināšana un trokšņu novēršana parasti ir galvenās difūzijas procesu sastāvdaļas attēla modalitātes kontekstā, tāpēc UNet un tā daudzās variācijas bieži tiek izmantotas kā pamata arhitektūra.

Būtiski, lai šis teksts tiktu kaut kādā veidā ņemts vērā ģenerēšanas laikā, lai uz tā pamata veidotu tēlu. Autori OpenAI rakstā par GLIDE modeli tika ieteikts mainīt teksta vadlīniju pieeju bez klasifikatoriem.

Iesaldētu iepriekš apstarotu teksta kodētāju un kaskādes izšķirtspējas uzlabošanas mehānisma izmantošana nākotnē ievērojami uzlaboja teksta ražošanu (Attēls). Izrādījās, ka nebija nepieciešams apmācīt teksta daļu teksta-attēlu modeļi jo, izmantojot iesaldēto T5-xxl, tika ievērojami uzlabota attēla kvalitāte un teksta izpratne, kā arī tika izmantots daudz mazāk apmācības resursu.

Autori a Latentā difūzija rakstā tika parādīts, ka attēla komponentam faktiski nav nepieciešama apmācība (vismaz ne pilnībā). Mācīšanās noritēs vēl ātrāk, ja izmantosim jaudīgu attēla automātisko kodētāju (VQ-VAE vai KL-VAE) kā vizuālo dekodētāju un mēģināsim ģenerēt iegulšanu no tās latentās telpas, izmantojot difūziju, nevis pašu attēlu. Šī metodika ir arī nesen izdotās versijas pamatā Stable Diffusion modelis.

Kandinsky 2.0 AI modelis

Ar dažiem galvenajiem uzlabojumiem, Kandinsky 2.0 pamatā ir uzlabota latentās difūzijas tehnika (mēs neveidojam attēlus, bet gan to latentos vektorus):

Izmantoja divus daudzvalodu teksta kodētājus un savienoja to iegulšanas.
Pievienots UNet (1.2 miljardi parametru).
Izlases procedūras dinamiskā sliekšņa noteikšana.

Pētnieki izmantoja divus daudzvalodu kodētājus vienlaikus — XLMR-clip un mT5-small, lai modelis tiešām daudzvalodu. Tāpēc papildus angļu, krievu, franču un vācu valodām modelis var saprast arī tādas valodas kā mongoļu, ebreju un persiešu. AI kopumā zina 101 valodu. Kāpēc tika nolemts kodēt tekstu, izmantojot divus modeļus vienlaikus? Tā kā XLMR-clip ir redzējis attēlus un nodrošina ciešu iegulšanu dažādām valodām, un mT5-small spēj saprast sarežģītus tekstus, šiem modeļiem ir atšķirīgas, taču būtiskas funkcijas. Tā kā abiem modeļiem ir tikai neliels skaits parametru (560 M un 146 M), kā liecina mūsu provizoriskie testi, tika nolemts izmantot divus kodētājus vienlaikus.

Svaigi ģenerēti attēli ar Kandinsky 2.0 AI modeli zemāk:

Kā notika Kandinsky 2.0 modeļa apmācība?

Apmācībām platformā ML Space tika izmantoti Christofari superdatori. Tam bija nepieciešamas 196 NVIDIA A100 kartes, katra ar 80 GB RAM. Apmācības pabeigšanai bija nepieciešamas 14 dienas jeb 65,856 256 GPU stundas. Analīze aizņēma piecas dienas ar izšķirtspēju 256 × 512, kam sekoja sešas dienas ar 512 × XNUMX izšķirtspēju, pēc tam vēl trīs dienas tīrākajiem datiem.

Kā apmācības dati tika apvienotas daudzas datu kopas, kas bija iepriekš filtrētas ūdenszīmēm, zemai izšķirtspējai un zemai teksta apraksta atbilstībai, ko mēra ar CLIP rādītāju metriku.

Daudzvalodu paaudze

Kandinsky 2.0 ir pirmais daudzvalodu modelis attēlu veidošanai no vārdiem, sniedzot mums pirmo iespēju novērtēt lingvistiskās un vizuālās izmaiņas dažādās valodu kultūrās. Tālāk ir parādīti viena vaicājuma tulkošanas rezultāti vairākās valodās. Piemēram, krievu vaicājuma “persona ar augstāko izglītību” paaudzes rezultātos parādās tikai baltie vīrieši, savukārt franču valodas tulkojuma “Photo d'une personne diplômée de l'enseignement supérieur” rezultāti ir daudzveidīgāki. Gribu atzīmēt, ka bēdīgie ļaudis ar augstāko izglītību ir tikai krievvalodīgajā izdevumā.

Lai gan joprojām ir daudz izmēģinājumu ar milzīgiem valodu modeļiem un dažādām izplatīšanas procesa metodēm, mēs jau tagad varam ar pārliecību apgalvot, ka Kandinsky 2.0 ir pirmais pilnībā daudzvalodu izplatīšanas modelis! Uz FusionBrain vietne un google colab, jūs varat redzēt viņas zīmējumu piemērus.

Lasiet vairāk par AI:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs