Ziņojums Tehnoloģija
Novembris 23, 2022

Sber AI ir prezentējis Kandinsky 2.0, pirmo teksta pārveides modeli, kas paredzēts ģenerēšanai vairāk nekā 100 valodās

Īsumā

Kandinsky 2.0, pirmo daudzvalodu difūzijas modeli, izveidoja un apmācīja Sber AI pētnieki ar AI Mākslīgā intelekta institūta pētnieku palīdzību, izmantojot Sber AI un SberDevices 1 miljarda teksta attēlu pāru apvienoto datu kopu.

Vairākos digitālo attēlu apstrādes uzdevumos difūzija arvien vairāk aizstāj GAN un autoregresīvos modeļus. Tas nav pārsteidzoši, jo difūziju ir vieglāk iemācīties, tai nav nepieciešama sarežģīta hiperparametru atlase, min-max optimizācija un tas necieš no mācīšanās nestabilitātes. Un vissvarīgākais ir tas, ka difūzijas modeļi demonstrē vismodernākos rezultātus gandrīz visos ģeneratīvajos uzdevumos — attēlu ģenerēšana pēc teksta, skaņas ģenerēšana, video un pat 3D.

Sber AI ir prezentējis Kandinsky 2.0, pirmo teksta pārveides modeli, kas paredzēts ģenerēšanai vairāk nekā 100 valodās
Attēls, ko izveidojis Kandinsky AI

Diemžēl lielākā daļa darba teksta pārveidošanas jomā ir vērsta tikai uz angļu un ķīniešu valodu. Lai labotu šo netaisnību, Sber AI nolēma izveidot daudzvalodu teksta-attēlu difūzijas modelis Kandinsky 2.0, kas saprot vaicājumus vairāk nekā 100 valodās. HuggingFace jau piedāvā Kandinsky 2.0. Pētnieki no SberAI un SberDevices ir sadarbojās ar ekspertiem no AI Mākslīgā intelekta institūta par šo projektu.

Kas ir difūzija?

2015. gada rakstā Dziļa bez uzraudzības mācīšanās, izmantojot nelīdzsvarotu termodinamiku, difūzijas modeļi vispirms tika aprakstīti kā vielas sajaukšanas darbība, kas izraisa difūziju, kas izlīdzina sadalījumu. Kā norāda raksta virsraksts, viņi difūzijas modeļu skaidrošanai pievērsās termodinamikas ietvaros.

Attēlu gadījumā šāds process varētu līdzināties, piemēram, pakāpeniskai Gausa trokšņa noņemšanai no attēla.

Papīra difūzijas modeļi Pārspēt 2021. gadā publicētais GANs on Image Synthesis bija pirmais, kas parādīja difūzijas modeļu pārākumu pār GANS. Autori arī izstrādāja pirmās paaudzes kontroles pieeju (kondicionēšanu), ko viņi nosauca par klasifikatora norādījumiem. Šī metode rada objektus, kas atbilst paredzētajai klasei, izmantojot gradientus no cita klasifikatora (piemēram, suņiem). Izmantojot adaptīvās grupas normas mehānismu, kas ietver normalizācijas koeficientu prognozēšanu, tiek veikta pati kontrole.

Šo rakstu var uzskatīt par pagrieziena punktu ģeneratīvā AI jomā, kas liek daudziem pievērsties difūzijas izpētei. Jauni raksti par teksta pārvēršana video, tekstu 3D formātā, attēls gleznošana, audio paaudze, difūzija par superizšķirtspēja, un pat kustību ģenerēšana sāka parādīties ik pēc dažām nedēļām.

Teksta-attēlu difūzija

Kā jau minējām iepriekš, trokšņu samazināšana un trokšņu novēršana parasti ir galvenās difūzijas procesu sastāvdaļas attēla modalitātes kontekstā, tāpēc UNet un tā daudzās variācijas bieži tiek izmantotas kā pamata arhitektūra.

Teksta-attēlu difūzija
Teksta-attēlu difūzija

Būtiski, lai šis teksts tiktu kaut kādā veidā ņemts vērā ģenerēšanas laikā, lai uz tā pamata veidotu tēlu. Autori OpenAI rakstā par GLIDE modeli tika ieteikts mainīt teksta vadlīniju pieeju bez klasifikatoriem.

Iesaldētu iepriekš apstarotu teksta kodētāju un kaskādes izšķirtspējas uzlabošanas mehānisma izmantošana nākotnē ievērojami uzlaboja teksta ražošanu (Attēls). Izrādījās, ka nebija nepieciešams apmācīt teksta daļu teksta-attēlu modeļi jo, izmantojot iesaldēto T5-xxl, tika ievērojami uzlabota attēla kvalitāte un teksta izpratne, kā arī tika izmantots daudz mazāk apmācības resursu.

Autori a Latentā difūzija rakstā tika parādīts, ka attēla komponentam faktiski nav nepieciešama apmācība (vismaz ne pilnībā). Mācīšanās noritēs vēl ātrāk, ja izmantosim jaudīgu attēla automātisko kodētāju (VQ-VAE vai KL-VAE) kā vizuālo dekodētāju un mēģināsim ģenerēt iegulšanu no tās latentās telpas, izmantojot difūziju, nevis pašu attēlu. Šī metodika ir arī nesen izdotās versijas pamatā Stable Diffusion modelis.

Kandinsky 2.0 AI modelis

Ar dažiem galvenajiem uzlabojumiem, Kandinsky 2.0 pamatā ir uzlabota latentās difūzijas tehnika (mēs neveidojam attēlus, bet gan to latentos vektorus):

  • Izmantoja divus daudzvalodu teksta kodētājus un savienoja to iegulšanas.
  • Pievienots UNet (1.2 miljardi parametru).
  • Izlases procedūras dinamiskā sliekšņa noteikšana.
Kandinsky 2.0 AI modelis
Kandinsky 2.0 AI modelis

Pētnieki izmantoja divus daudzvalodu kodētājus vienlaikus — XLMR-clip un mT5-small, lai modelis tiešām daudzvalodu. Tāpēc papildus angļu, krievu, franču un vācu valodām modelis var saprast arī tādas valodas kā mongoļu, ebreju un persiešu. AI kopumā zina 101 valodu. Kāpēc tika nolemts kodēt tekstu, izmantojot divus modeļus vienlaikus? Tā kā XLMR-clip ir redzējis attēlus un nodrošina ciešu iegulšanu dažādām valodām, un mT5-small spēj saprast sarežģītus tekstus, šiem modeļiem ir atšķirīgas, taču būtiskas funkcijas. Tā kā abiem modeļiem ir tikai neliels skaits parametru (560 M un 146 M), kā liecina mūsu provizoriskie testi, tika nolemts izmantot divus kodētājus vienlaikus.

Svaigi ģenerēti attēli ar Kandinsky 2.0 AI modeli zemāk:

Kā notika Kandinsky 2.0 modeļa apmācība?

Apmācībām platformā ML Space tika izmantoti Christofari superdatori. Tam bija nepieciešamas 196 NVIDIA A100 kartes, katra ar 80 GB RAM. Apmācības pabeigšanai bija nepieciešamas 14 dienas jeb 65,856 256 GPU stundas. Analīze aizņēma piecas dienas ar izšķirtspēju 256 × 512, kam sekoja sešas dienas ar 512 × XNUMX izšķirtspēju, pēc tam vēl trīs dienas tīrākajiem datiem.

Kā apmācības dati tika apvienotas daudzas datu kopas, kas bija iepriekš filtrētas ūdenszīmēm, zemai izšķirtspējai un zemai teksta apraksta atbilstībai, ko mēra ar CLIP rādītāju metriku.

Daudzvalodu paaudze

Kandinsky 2.0 ir pirmais daudzvalodu modelis attēlu veidošanai no vārdiem, sniedzot mums pirmo iespēju novērtēt lingvistiskās un vizuālās izmaiņas dažādās valodu kultūrās. Tālāk ir parādīti viena vaicājuma tulkošanas rezultāti vairākās valodās. Piemēram, krievu vaicājuma “persona ar augstāko izglītību” paaudzes rezultātos parādās tikai baltie vīrieši, savukārt franču valodas tulkojuma “Photo d'une personne diplômée de l'enseignement supérieur” rezultāti ir daudzveidīgāki. Gribu atzīmēt, ka bēdīgie ļaudis ar augstāko izglītību ir tikai krievvalodīgajā izdevumā.

Daudzvalodu paaudze
Uzvedne: laupītājs (1. krievu, 2. angļu, 3. hindi)
Daudzvalodu paaudze
Uzvedne: persona ar augstāko izglītību (1. krievu, 2. franču, 3. ķīniešu)
Daudzvalodu paaudze
Uzvedne: nacionālais ēdiens (1. krievu, 2. japāņu, 3. hindi)

Lai gan joprojām ir daudz izmēģinājumu ar milzīgiem valodu modeļiem un dažādām izplatīšanas procesa metodēm, mēs jau tagad varam ar pārliecību apgalvot, ka Kandinsky 2.0 ir pirmais pilnībā daudzvalodu izplatīšanas modelis! Uz FusionBrain vietne un google colab, jūs varat redzēt viņas zīmējumu piemērus.

Lasiet vairāk par AI:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Vairāk rakstus
Damirs Jalalovs
Damirs Jalalovs

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Hot Stories
Pievienojieties mūsu informatīvajam izdevumam.
Jaunākās ziņas

Pienāk notiesāšanas diena: CZ liktenis ir līdzsvarā, jo ASV tiesa izskata DOJ lūgumu

Šodien ASV tiesā Sietlā Čanpens Džao ir gatavs notiesāt.

Uzziniet vairāk

Samourai Wallet dibinātāji tiek apsūdzēti par 2 miljardu dolāru atvieglošanu Darknet darījumos

Samourai Wallet dibinātāju bažas ir ievērojams neveiksme nozarei, uzsverot neatlaidīgo ...

Uzziniet vairāk
Pievienojieties mūsu novatoriskajai tehnoloģiju kopienai
Lasīt vairāk
Vairāk
Eigen fonds plāno izplatīt papildu 100 EIGEN žetonus lietotājiem pēc kopienas kritikas
Markets Ziņojums Tehnoloģija
Eigen fonds plāno izplatīt papildu 100 EIGEN žetonus lietotājiem pēc kopienas kritikas
3. gada 2024. maijs
Pantera Capital iegulda TON blokķēdē, pauž pārliecību par telegrammas potenciālu paplašināt kriptovalūtu pieejamību
bizness Ziņojums Tehnoloģija
Pantera Capital iegulda TON blokķēdē, pauž pārliecību par telegrammas potenciālu paplašināt kriptovalūtu pieejamību
2. gada 2024. maijs
Mitoze piesaista 7 miljonus ASV dolāru finansējumu no Amber Group un Foresight Ventures, lai uzlabotu tās modulārās likviditātes protokolu
bizness Ziņojums Tehnoloģija
Mitoze piesaista 7 miljonus ASV dolāru finansējumu no Amber Group un Foresight Ventures, lai uzlabotu tās modulārās likviditātes protokolu
2. gada 2024. maijs
Galxe sadarbojas ar Jambo, lai paplašinātu globālo pieejamību Web3
bizness Ziņojums Tehnoloģija
Galxe sadarbojas ar Jambo, lai paplašinātu globālo pieejamību Web3
2. gada 2024. maijs
CRYPTOMERIA LABS PTE. LTD.