November 23, 2022

Sber AI har presenterat Kandinsky 2.0, den första text-till-bild-modellen för generering på mer än 100 språk

Publicerad: 23 november 2022 kl. 1 Uppdaterad: 23 november 23 kl. 2022

I korthet

Kandinsky 2.0, den första flerspråkiga spridningsmodellen, skapades och tränades av Sber AI-forskare med hjälp av forskare från AI Institute of Artificial Intelligence med hjälp av den kombinerade datamängden med 1 miljard text-bildpar från Sber AI och SberDevices

Diffusion ersätter alltmer GAN och autoregressiva modeller i ett antal digitala bildbehandlingsuppgifter. Detta är inte förvånande eftersom diffusion är lättare att lära sig, inte kräver ett komplext urval av hyperparametrar, min-max-optimering och inte lider av inlärningsinstabilitet. Och viktigast av allt, diffusionsmodeller visar toppmoderna resultat för nästan alla generativa uppgifter - bildgenerering genom text, ljudgenerering, video och till och med 3D.

Sber AI har presenterat Kandinsky 2.0, den första text-till-bild-modellen för generering på mer än 100 språk — Bilden skapad av Kandinsky AI

Tyvärr fokuserar det mesta av arbetet inom text-till-någonting bara på engelska och kinesiska. För att rätta till denna orättvisa, Sber AI beslutat att skapa en flerspråkig text-till-bild spridningsmodell Kandinsky 2.0, som förstår frågor på mer än 100 språk. Kramar ansikte erbjuder redan Kandinsky 2.0. Forskare från SberAI och SberDevices har samarbetat med experter från AI Institute of Artificial Intelligence om detta projekt.

Vad är diffusion?

I 2015 års artikel Djup oövervakad inlärning med Nonequilibrium Termodynamik, beskrevs diffusionsmodeller först som handlingen att blanda ett ämne vilket resulterade i diffusion, vilket utjämnar fördelningen. Som rubriken på artikeln antyder, närmade de sig förklaringen av diffusionsmodeller genom termodynamikens ramverk.

När det gäller bilder kan en sådan process till exempel likna att gradvis avlägsna gaussiskt brus från bilden.

Papperet Diffusion Models Slå GANs on Image Synthesis, publicerad 2021, var den första som visade diffusionsmodellernas överlägsenhet över GANS. Författarna utarbetade också den första generationens kontrollmetod (konditionering), som de kallade klassificerare vägledning. Den här metoden skapar objekt som passar den avsedda klassen med hjälp av gradienter från en annan klassificerare (till exempel hundar). Genom mekanismen Adaptive Group Norm, som innebär prognoser av normaliseringskoefficienter, utförs själva kontrollen.

Den här artikeln kan ses som en vändpunkt inom området generativ AI, vilket leder till att många vänder sig till studiet av diffusion. Nya artiklar om text-till-video, text-till-3D, bild målning, ljudgenerering, diffusion för superupplösning, och till och med rörelsegenerering började dyka upp med några veckors mellanrum.

Text-till-bild spridning

Som vi nämnde tidigare är brusreducering och bruseliminering vanligtvis huvudkomponenterna i diffusionsprocesser i samband med bildmodaliteter, så UNet och dess många variationer används ofta som den grundläggande arkitekturen.

Det är viktigt att denna text på något sätt beaktas under generationen för att skapa en bild utifrån den. Författarna till OpenAI artikeln om GLIDE-modellen föreslog att man skulle ändra den klassificerare-fria vägledningsmetoden för text.

Användningen av frusna förbestrålade textkodare och kaskadupplösningsförbättringsmekanismen i framtiden förbättrade textproduktionen avsevärt (Bild). Det visade sig att det inte fanns något behov av att träna textdelen av text-till-bild-modeller som att använda den frusna T5-xxl resulterade i avsevärt förbättrad bildkvalitet och textförståelse och använde mycket färre träningsresurser.

Författarna till a Latent diffusion artikeln visade att bildkomponenten faktiskt inte kräver träning (åtminstone inte helt). Inlärningen kommer att gå ännu snabbare om vi använder en kraftfull bildautokodare (VQ-VAE eller KL-VAE) som en visuell avkodare och försöker generera inbäddningar från dess latenta utrymme genom diffusion snarare än själva bilden. Denna metod är också grunden för den nyligen släppta Stable Diffusion modell.

Kandinsky 2.0 AI-modell

Med några viktiga förbättringar är Kandinsky 2.0 baserad på en förbättrad latent diffusionsteknik (vi gör inga bilder, utan snarare deras latenta vektorer):

Anställde två flerspråkiga textkodare och sammanfogade deras inbäddningar.
Lade till UNet (1.2 miljarder parametrar).
Samplingsprocedur dynamisk tröskelvärde.

Forskare använde två flerspråkiga kodare samtidigt – XLMR-clip och mT5-small – för att göra modell verkligen flerspråkig. Därför, förutom engelska, ryska, franska och tyska, kan modellen också förstå språk som mongoliska, hebreiska och farsi. AI:n kan totalt 101 språk. Varför valdes det att koda text med två modeller samtidigt? Eftersom XLMR-clip har sett bilder och ger nära inbäddningar för olika språk, och mT5-small kan förstå komplexa texter, har dessa modeller olika men avgörande egenskaper. Eftersom båda modellerna endast har ett litet antal parametrar (560M och 146M), som demonstreras av våra preliminära tester, beslutades det att använda två kodare samtidigt.

Nyskapade bilder av Kandinsky 2.0 AI-modell nedan:

Hur gick Kandinsky 2.0-modellutbildningen till?

Christofari superdatorer användes för utbildningen på ML Space-plattformen. Det krävdes 196 NVIDIA A100-kort, vart och ett med 80 GB RAM. Det tog 14 dagar, eller 65,856 256 GPU-timmar, att genomföra utbildningen. Analysen tog fem dagar vid 256×512 upplösning, följt av sex dagar vid 512×XNUMX upplösning, sedan ytterligare tre dagar på renaste data.

Som träningsdata kombinerades många datamängder som hade förfiltrerats för vattenstämplar, låg upplösning och låg efterlevnad av textbeskrivningen mätt med CLIP-poängmåttet.

Flerspråkig generation

Kandinsky 2.0 är den första flerspråkiga modellen för att skapa bilder från ord, vilket ger oss den första chansen att bedöma språkliga och visuella förändringar över språkkulturer. Resultaten av att översätta samma fråga till flera språk visas nedan. Till exempel förekommer bara vita män i genereringsresultaten för den ryska frågan "en person med högre utbildning", medan resultaten för den franska översättningen, "Photo d'une personne diplômée de l'enseignement supérieur," är mer diversifierade. Jag vill påpeka att de sorgsna personerna med högre utbildning bara finns i den ryskspråkiga utgåvan.

Även om det fortfarande finns massor av försök med enorma språkmodeller och olika metoder för spridningsprocessen planerade, kan vi redan nu med tillförsikt konstatera att Kandinsky 2.0 är den första totalt flerspråkiga spridningsmodellen! På FusionBrain hemsida och Google Colab, kan du se exempel på hennes teckningar.

Läs mer om AI:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov