Nyheds rapport Teknologier
November 23, 2022

Sber AI har præsenteret Kandinsky 2.0, den første tekst-til-billede-model til generering på mere end 100 sprog

Kort sagt

Kandinsky 2.0, den første flersprogede diffusionsmodel, blev skabt og trænet af Sber AI-forskere med bistand fra forskere fra AI Institute of Artificial Intelligence ved hjælp af det kombinerede datasæt på 1 milliard tekst-billede-par fra Sber AI og SberDevices

Diffusion erstatter i stigende grad GAN'er og autoregressive modeller i en række digitale billedbehandlingsopgaver. Dette er ikke overraskende, fordi diffusion er lettere at lære, ikke kræver et komplekst udvalg af hyperparametre, min-max optimering og ikke lider af læringsustabilitet. Og vigtigst af alt demonstrerer diffusionsmodeller avancerede resultater på næsten alle generative opgaver - billedgenerering efter tekst, lydgenerering, video og endda 3D.

Sber AI har præsenteret Kandinsky 2.0, den første tekst-til-billede-model til generering på mere end 100 sprog
Billedet skabt af Kandinsky AI

Desværre fokuserer det meste af arbejdet inden for tekst-til-noget kun på engelsk og kinesisk. For at rette op på denne uretfærdighed, Sber AI besluttede at skabe en flersproget tekst-til-billede spredningsmodel Kandinsky 2.0, som forstår forespørgsler på mere end 100 sprog. KrammerFace tilbyder allerede Kandinsky 2.0. Forskere fra SberAI og SberDevices har samarbejdet med eksperter fra AI Institute of Artificial Intelligence om dette projekt.

Hvad er diffusion?

I artiklen fra 2015 Dyb uovervåget læring ved hjælp af nonequilibrium termodynamik, blev diffusionsmodeller først beskrevet som handlingen med at blande et stof, hvilket resulterede i diffusion, som udligner fordelingen. Som artiklens titel antyder, nærmede de sig forklaringen af ​​diffusionsmodeller gennem termodynamikkens rammer.

I tilfælde af billeder kan en sådan proces for eksempel ligne gradvis fjernelse af gaussisk støj fra billedet.

Papiret Diffusionsmodeller fuld GANs on Image Synthesis, udgivet i 2021, var den første til at vise diffusionsmodellernes overlegenhed over GANS. Forfatterne udtænkte også den første generations kontroltilgang (konditionering), som de kaldte klassificeringsvejledning. Denne metode opretter objekter, der passer til den tilsigtede klasse ved hjælp af gradienter fra en anden klassifikator (f.eks. hunde). Gennem Adaptive Group Norm-mekanismen, som involverer forudsigelse af normaliseringskoefficienter, udføres selve kontrollen.

Denne artikel kan ses som et vendepunkt inden for generativ AI, hvilket får mange til at henvende sig til studiet af diffusion. Nye artikler om tekst-til-video, tekst-til-3D, billede indmaling, lydgenerering, diffusion for superopløsning, og selv bevægelsesgenerering begyndte at dukke op med få ugers mellemrum.

Tekst-til-billede spredning

Som vi nævnte tidligere, er støjreduktion og støjeliminering typisk hovedkomponenterne i diffusionsprocesser i forbindelse med billedmodaliteter, så UNet og dets mange variationer bruges ofte som den grundlæggende arkitektur.

Tekst-til-billede spredning
Tekst-til-billede spredning

Det er essentielt, at denne tekst på en eller anden måde tages i betragtning under generationen for at skabe et billede baseret på den. Forfatterne af OpenAI artiklen om GLIDE-modellen foreslog at ændre den klassificeringsfrie vejledningstilgang til tekst.

Anvendelsen af ​​frosne forbestrålede tekstkodere og kaskadeopløsningsforbedringsmekanismen i fremtiden forbedrede tekstproduktionen betydeligt (Billede). Det viste sig, at der ikke var behov for at træne tekstdelen af tekst-til-billede modeller da brug af den frosne T5-xxl resulterede i betydeligt forbedret billedkvalitet og tekstforståelse og brugte meget færre træningsressourcer.

Forfatterne af en Latent Diffusion artiklen viste, at billedkomponenten faktisk ikke kræver træning (i hvert fald ikke helt). Læring vil forløbe endnu hurtigere, hvis vi bruger en kraftfuld billed-autoencoder (VQ-VAE eller KL-VAE) som en visuel dekoder og forsøger at generere indlejringer fra dets latente rum ved diffusion i stedet for selve billedet. Denne metode er også grundlaget for den nyligt udgivne Stable Diffusion model.

Kandinsky 2.0 AI model

Med et par vigtige forbedringer er Kandinsky 2.0 baseret på en forbedret latent diffusionsteknik (vi laver ikke billeder, men snarere deres latente vektorer):

  • Anvendte to flersprogede tekstkodere og sammenkædede deres indlejringer.
  • Tilføjet UNet (1.2 milliarder parametre).
  • Sampling procedure dynamisk tærskelværdi.
Kandinsky 2.0 AI model
Kandinsky 2.0 AI model

Forskere brugte to flersprogede indkodere samtidigt - XLMR-clip og mT5-small - for at gøre model virkelig flersproget. Derfor kan modellen udover engelsk, russisk, fransk og tysk også forstå sprog som mongolsk, hebraisk og farsi. AI'en kan i alt 101 sprog. Hvorfor blev det besluttet at indkode tekst ved hjælp af to modeller samtidigt? Da XLMR-clip har set billeder og giver tætte indlejringer til forskellige sprog, og mT5-small er i stand til at forstå komplekse tekster, har disse modeller forskellige, men afgørende funktioner. Da begge modeller kun har et lille antal parametre (560M og 146M), som demonstreret af vores foreløbige test, blev det besluttet at bruge to encodere samtidigt.

Frisk genererede billeder af Kandinsky 2.0 AI-modellen nedenfor:

Hvordan blev Kandinsky 2.0 modeltræningen udført?

Christofari supercomputere blev brugt til træningen på ML Space platformen. Det krævede 196 NVIDIA A100-kort, hver med 80 GB RAM. Det tog 14 dage, eller 65,856 GPU-timer, at gennemføre uddannelsen. Analysen tog fem dage ved 256×256 opløsning, efterfulgt af seks dage ved 512×512 opløsning, derefter yderligere tre dage på de reneste data.

Som træningsdata blev mange datasæt kombineret, der var blevet forfiltreret for vandmærker, lav opløsning og lav overholdelse af tekstbeskrivelsen som målt med CLIP-score-metrikken.

Flersproget generation

Kandinsky 2.0 er den første flersprogede model til at skabe billeder ud fra ord, hvilket giver os den første chance for at vurdere sproglige og visuelle ændringer på tværs af sprogkulturer. Resultaterne af at oversætte den samme forespørgsel til flere sprog er vist nedenfor. For eksempel optræder kun hvide mænd i generationsresultaterne for den russiske forespørgsel "en person med en videregående uddannelse", mens resultaterne for den franske oversættelse, "Photo d'une personne diplômée de l'enseignement supérieur," er mere diversificerede. Jeg vil gerne påpege, at de sorgfulde mennesker med videregående uddannelse kun er til stede i den russisksprogede udgave.

Flersproget generation
Spørgsmål: røveren (1. russisk, 2. engelsk, 3. hindi)
Flersproget generation
Spørgsmål: en person med videregående uddannelse (1. russisk, 2. fransk, 3. kinesisk)
Flersproget generation
Spørgsmål: en nationalret (1. russisk, 2. japansk, 3. hindi)

Selvom der stadig er et væld af forsøg med enorme sprogmodeller og forskellige metoder til spredningsprocessen planlagt, kan vi allerede med tillid konstatere, at Kandinsky 2.0 er den første totalt flersprogede formidlingsmodel! På den FusionBrain hjemmeside , google colab, kan du se eksempler på hendes tegninger.

Læs mere om AI:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere

Samourai Wallet Founders anklaget for at facilitere $2B i Darknet-tilbud

Frygten fra Samourai Wallet-grundlæggerne repræsenterer et bemærkelsesværdigt tilbageslag for industrien, hvilket understreger den vedvarende ...

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Hongkongs lovgivende rådsmedlem Wu Jiezhuang signalerer civil retssag mod JPEX Crypto Exchange
Forretning Nyheds rapport Teknologier
Hongkongs lovgivende rådsmedlem Wu Jiezhuang signalerer civil retssag mod JPEX Crypto Exchange
Maj 2, 2024
AltLayer går ind i anden fase af sit staking-initiativ, introducerer reALT Token
Markeder Nyheds rapport Teknologier
AltLayer går ind i anden fase af sit staking-initiativ, introducerer reALT Token
Maj 2, 2024
BNB Chain udgiver rapport for 1. kvartal 2024, fremhæver 55.8 % reduktion i sit værditab, mens BSC TVL stiger med 70.8 %
Markeder Nyheds rapport Teknologier
BNB Chain udgiver rapport for 1. kvartal 2024, fremhæver 55.8 % reduktion i sit værditab, mens BSC TVL stiger med 70.8 %
Maj 2, 2024
Naver og Kakaos Kaia: Det nye asiatiske blockchain-kraftcenter klar til at forstyrre globale kryptomarkeder
Forretning Software Historier og anmeldelser Teknologier
Naver og Kakaos Kaia: Det nye asiatiske blockchain-kraftcenter klar til at forstyrre globale kryptomarkeder
Maj 2, 2024