November 23, 2022

Sber AI har præsenteret Kandinsky 2.0, den første tekst-til-billede-model til generering på mere end 100 sprog

Udgivet: 23. november 2022 kl. 1 Opdateret: 23. november 23 kl. 2022

Kort sagt

Kandinsky 2.0, den første flersprogede diffusionsmodel, blev skabt og trænet af Sber AI-forskere med bistand fra forskere fra AI Institute of Artificial Intelligence ved hjælp af det kombinerede datasæt på 1 milliard tekst-billede-par fra Sber AI og SberDevices

Diffusion erstatter i stigende grad GAN'er og autoregressive modeller i en række digitale billedbehandlingsopgaver. Dette er ikke overraskende, fordi diffusion er lettere at lære, ikke kræver et komplekst udvalg af hyperparametre, min-max optimering og ikke lider af læringsustabilitet. Og vigtigst af alt demonstrerer diffusionsmodeller avancerede resultater på næsten alle generative opgaver - billedgenerering efter tekst, lydgenerering, video og endda 3D.

Sber AI har præsenteret Kandinsky 2.0, den første tekst-til-billede-model til generering på mere end 100 sprog — Billedet skabt af Kandinsky AI

Desværre fokuserer det meste af arbejdet inden for tekst-til-noget kun på engelsk og kinesisk. For at rette op på denne uretfærdighed, Sber AI besluttede at skabe en flersproget tekst-til-billede spredningsmodel Kandinsky 2.0, som forstår forespørgsler på mere end 100 sprog. KrammerFace tilbyder allerede Kandinsky 2.0. Forskere fra SberAI og SberDevices har samarbejdet med eksperter fra AI Institute of Artificial Intelligence om dette projekt.

Hvad er diffusion?

I artiklen fra 2015 Dyb uovervåget læring ved hjælp af nonequilibrium termodynamik, blev diffusionsmodeller først beskrevet som handlingen med at blande et stof, hvilket resulterede i diffusion, som udligner fordelingen. Som artiklens titel antyder, nærmede de sig forklaringen af diffusionsmodeller gennem termodynamikkens rammer.

I tilfælde af billeder kan en sådan proces for eksempel ligne gradvis fjernelse af gaussisk støj fra billedet.

Papiret Diffusionsmodeller fuld GANs on Image Synthesis, udgivet i 2021, var den første til at vise diffusionsmodellernes overlegenhed over GANS. Forfatterne udtænkte også den første generations kontroltilgang (konditionering), som de kaldte klassificeringsvejledning. Denne metode opretter objekter, der passer til den tilsigtede klasse ved hjælp af gradienter fra en anden klassifikator (f.eks. hunde). Gennem Adaptive Group Norm-mekanismen, som involverer forudsigelse af normaliseringskoefficienter, udføres selve kontrollen.

Denne artikel kan ses som et vendepunkt inden for generativ AI, hvilket får mange til at henvende sig til studiet af diffusion. Nye artikler om tekst-til-video, tekst-til-3D, billede indmaling, lydgenerering, diffusion for superopløsning, og selv bevægelsesgenerering begyndte at dukke op med få ugers mellemrum.

Tekst-til-billede spredning

Som vi nævnte tidligere, er støjreduktion og støjeliminering typisk hovedkomponenterne i diffusionsprocesser i forbindelse med billedmodaliteter, så UNet og dets mange variationer bruges ofte som den grundlæggende arkitektur.

Det er essentielt, at denne tekst på en eller anden måde tages i betragtning under generationen for at skabe et billede baseret på den. Forfatterne af OpenAI artiklen om GLIDE-modellen foreslog at ændre den klassificeringsfrie vejledningstilgang til tekst.

Anvendelsen af frosne forbestrålede tekstkodere og kaskadeopløsningsforbedringsmekanismen i fremtiden forbedrede tekstproduktionen betydeligt (Billede). Det viste sig, at der ikke var behov for at træne tekstdelen af tekst-til-billede modeller da brug af den frosne T5-xxl resulterede i betydeligt forbedret billedkvalitet og tekstforståelse og brugte meget færre træningsressourcer.

Forfatterne af en Latent Diffusion artiklen viste, at billedkomponenten faktisk ikke kræver træning (i hvert fald ikke helt). Læring vil forløbe endnu hurtigere, hvis vi bruger en kraftfuld billed-autoencoder (VQ-VAE eller KL-VAE) som en visuel dekoder og forsøger at generere indlejringer fra dets latente rum ved diffusion i stedet for selve billedet. Denne metode er også grundlaget for den nyligt udgivne Stable Diffusion model.

Kandinsky 2.0 AI model

Med et par vigtige forbedringer er Kandinsky 2.0 baseret på en forbedret latent diffusionsteknik (vi laver ikke billeder, men snarere deres latente vektorer):

Anvendte to flersprogede tekstkodere og sammenkædede deres indlejringer.
Tilføjet UNet (1.2 milliarder parametre).
Sampling procedure dynamisk tærskelværdi.

Forskere brugte to flersprogede indkodere samtidigt - XLMR-clip og mT5-small - for at gøre model virkelig flersproget. Derfor kan modellen udover engelsk, russisk, fransk og tysk også forstå sprog som mongolsk, hebraisk og farsi. AI'en kan i alt 101 sprog. Hvorfor blev det besluttet at indkode tekst ved hjælp af to modeller samtidigt? Da XLMR-clip har set billeder og giver tætte indlejringer til forskellige sprog, og mT5-small er i stand til at forstå komplekse tekster, har disse modeller forskellige, men afgørende funktioner. Da begge modeller kun har et lille antal parametre (560M og 146M), som demonstreret af vores foreløbige test, blev det besluttet at bruge to encodere samtidigt.

Frisk genererede billeder af Kandinsky 2.0 AI-modellen nedenfor:

Hvordan blev Kandinsky 2.0 modeltræningen udført?

Christofari supercomputere blev brugt til træningen på ML Space platformen. Det krævede 196 NVIDIA A100-kort, hver med 80 GB RAM. Det tog 14 dage, eller 65,856 GPU-timer, at gennemføre uddannelsen. Analysen tog fem dage ved 256×256 opløsning, efterfulgt af seks dage ved 512×512 opløsning, derefter yderligere tre dage på de reneste data.

Som træningsdata blev mange datasæt kombineret, der var blevet forfiltreret for vandmærker, lav opløsning og lav overholdelse af tekstbeskrivelsen som målt med CLIP-score-metrikken.

Flersproget generation

Kandinsky 2.0 er den første flersprogede model til at skabe billeder ud fra ord, hvilket giver os den første chance for at vurdere sproglige og visuelle ændringer på tværs af sprogkulturer. Resultaterne af at oversætte den samme forespørgsel til flere sprog er vist nedenfor. For eksempel optræder kun hvide mænd i generationsresultaterne for den russiske forespørgsel "en person med en videregående uddannelse", mens resultaterne for den franske oversættelse, "Photo d'une personne diplômée de l'enseignement supérieur," er mere diversificerede. Jeg vil gerne påpege, at de sorgfulde mennesker med videregående uddannelse kun er til stede i den russisksprogede udgave.

Selvom der stadig er et væld af forsøg med enorme sprogmodeller og forskellige metoder til spredningsprocessen planlagt, kan vi allerede med tillid konstatere, at Kandinsky 2.0 er den første totalt flersprogede formidlingsmodel! På den FusionBrain hjemmeside , google colab, kan du se eksempler på hendes tegninger.

Læs mere om AI:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov