Nyhetsrapport Teknologi
November 23, 2022

Sber AI har presenterat Kandinsky 2.0, den första text-till-bild-modellen för generering på mer än 100 språk

I korthet

Kandinsky 2.0, den första flerspråkiga spridningsmodellen, skapades och tränades av Sber AI-forskare med hjälp av forskare från AI Institute of Artificial Intelligence med hjälp av den kombinerade datamängden med 1 miljard text-bildpar från Sber AI och SberDevices

Diffusion ersätter alltmer GAN och autoregressiva modeller i ett antal digitala bildbehandlingsuppgifter. Detta är inte förvånande eftersom diffusion är lättare att lära sig, inte kräver ett komplext urval av hyperparametrar, min-max-optimering och inte lider av inlärningsinstabilitet. Och viktigast av allt, diffusionsmodeller visar toppmoderna resultat för nästan alla generativa uppgifter - bildgenerering genom text, ljudgenerering, video och till och med 3D.

Sber AI har presenterat Kandinsky 2.0, den första text-till-bild-modellen för generering på mer än 100 språk
Bilden skapad av Kandinsky AI

Tyvärr fokuserar det mesta av arbetet inom text-till-någonting bara på engelska och kinesiska. För att rätta till denna orättvisa, Sber AI beslutat att skapa en flerspråkig text-till-bild spridningsmodell Kandinsky 2.0, som förstår frågor på mer än 100 språk. Kramar ansikte erbjuder redan Kandinsky 2.0. Forskare från SberAI och SberDevices har samarbetat med experter från AI Institute of Artificial Intelligence om detta projekt.

Vad är diffusion?

I 2015 års artikel Djup oövervakad inlärning med Nonequilibrium Termodynamik, beskrevs diffusionsmodeller först som handlingen att blanda ett ämne vilket resulterade i diffusion, vilket utjämnar fördelningen. Som rubriken på artikeln antyder, närmade de sig förklaringen av diffusionsmodeller genom termodynamikens ramverk.

När det gäller bilder kan en sådan process till exempel likna att gradvis avlägsna gaussiskt brus från bilden.

Papperet Diffusion Models Slå GANs on Image Synthesis, publicerad 2021, var den första som visade diffusionsmodellernas överlägsenhet över GANS. Författarna utarbetade också den första generationens kontrollmetod (konditionering), som de kallade klassificerare vägledning. Den här metoden skapar objekt som passar den avsedda klassen med hjälp av gradienter från en annan klassificerare (till exempel hundar). Genom mekanismen Adaptive Group Norm, som innebär prognoser av normaliseringskoefficienter, utförs själva kontrollen.

Den här artikeln kan ses som en vändpunkt inom området generativ AI, vilket leder till att många vänder sig till studiet av diffusion. Nya artiklar om text-till-video, text-till-3D, bild målning, ljudgenerering, diffusion för superupplösning, och till och med rörelsegenerering började dyka upp med några veckors mellanrum.

Text-till-bild spridning

Som vi nämnde tidigare är brusreducering och bruseliminering vanligtvis huvudkomponenterna i diffusionsprocesser i samband med bildmodaliteter, så UNet och dess många variationer används ofta som den grundläggande arkitekturen.

Text-till-bild spridning
Text-till-bild spridning

Det är viktigt att denna text på något sätt beaktas under generationen för att skapa en bild utifrån den. Författarna till OpenAI artikeln om GLIDE-modellen föreslog att man skulle ändra den klassificerare-fria vägledningsmetoden för text.

Användningen av frusna förbestrålade textkodare och kaskadupplösningsförbättringsmekanismen i framtiden förbättrade textproduktionen avsevärt (Bild). Det visade sig att det inte fanns något behov av att träna textdelen av text-till-bild-modeller som att använda den frusna T5-xxl resulterade i avsevärt förbättrad bildkvalitet och textförståelse och använde mycket färre träningsresurser.

Författarna till a Latent diffusion artikeln visade att bildkomponenten faktiskt inte kräver träning (åtminstone inte helt). Inlärningen kommer att gå ännu snabbare om vi använder en kraftfull bildautokodare (VQ-VAE eller KL-VAE) som en visuell avkodare och försöker generera inbäddningar från dess latenta utrymme genom diffusion snarare än själva bilden. Denna metod är också grunden för den nyligen släppta Stable Diffusion modell.

Kandinsky 2.0 AI-modell

Med några viktiga förbättringar är Kandinsky 2.0 baserad på en förbättrad latent diffusionsteknik (vi gör inga bilder, utan snarare deras latenta vektorer):

  • Anställde två flerspråkiga textkodare och sammanfogade deras inbäddningar.
  • Lade till UNet (1.2 miljarder parametrar).
  • Samplingsprocedur dynamisk tröskelvärde.
Kandinsky 2.0 AI-modell
Kandinsky 2.0 AI-modell

Forskare använde två flerspråkiga kodare samtidigt – XLMR-clip och mT5-small – för att göra modell verkligen flerspråkig. Därför, förutom engelska, ryska, franska och tyska, kan modellen också förstå språk som mongoliska, hebreiska och farsi. AI:n kan totalt 101 språk. Varför valdes det att koda text med två modeller samtidigt? Eftersom XLMR-clip har sett bilder och ger nära inbäddningar för olika språk, och mT5-small kan förstå komplexa texter, har dessa modeller olika men avgörande egenskaper. Eftersom båda modellerna endast har ett litet antal parametrar (560M och 146M), som demonstreras av våra preliminära tester, beslutades det att använda två kodare samtidigt.

Nyskapade bilder av Kandinsky 2.0 AI-modell nedan:

Hur gick Kandinsky 2.0-modellutbildningen till?

Christofari superdatorer användes för utbildningen på ML Space-plattformen. Det krävdes 196 NVIDIA A100-kort, vart och ett med 80 GB RAM. Det tog 14 dagar, eller 65,856 256 GPU-timmar, att genomföra utbildningen. Analysen tog fem dagar vid 256×512 upplösning, följt av sex dagar vid 512×XNUMX upplösning, sedan ytterligare tre dagar på renaste data.

Som träningsdata kombinerades många datamängder som hade förfiltrerats för vattenstämplar, låg upplösning och låg efterlevnad av textbeskrivningen mätt med CLIP-poängmåttet.

Flerspråkig generation

Kandinsky 2.0 är den första flerspråkiga modellen för att skapa bilder från ord, vilket ger oss den första chansen att bedöma språkliga och visuella förändringar över språkkulturer. Resultaten av att översätta samma fråga till flera språk visas nedan. Till exempel förekommer bara vita män i genereringsresultaten för den ryska frågan "en person med högre utbildning", medan resultaten för den franska översättningen, "Photo d'une personne diplômée de l'enseignement supérieur," är mer diversifierade. Jag vill påpeka att de sorgsna personerna med högre utbildning bara finns i den ryskspråkiga utgåvan.

Flerspråkig generation
Uppmaning: rånaren (1. ryska, 2. engelska, 3. hindi)
Flerspråkig generation
Uppmaning: en person med högre utbildning (1. ryska, 2. franska, 3. kinesiska)
Flerspråkig generation
Uppmaning: en nationalrätt (1. ryska, 2. japanska, 3. hindi)

Även om det fortfarande finns massor av försök med enorma språkmodeller och olika metoder för spridningsprocessen planerade, kan vi redan nu med tillförsikt konstatera att Kandinsky 2.0 är den första totalt flerspråkiga spridningsmodellen! På FusionBrain hemsida och Google Colab, kan du se exempel på hennes teckningar.

Läs mer om AI:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer

Samourai Wallet-grundare anklagade för att underlätta $2 miljarder i Darknet-erbjudanden

Uppfattningen av Samourai Wallet-grundarna representerar ett anmärkningsvärt bakslag för branschen, vilket understryker den ihållande ...

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Eigen Foundation planerar att distribuera ytterligare 100 EIGEN-tokens till användare efter gemenskapskritik
Marknader Nyhetsrapport Teknologi
Eigen Foundation planerar att distribuera ytterligare 100 EIGEN-tokens till användare efter gemenskapskritik
Maj 3, 2024
Pantera Capital investerar i TON Blockchain, uttrycker förtroende för Telegrams potential att bredda kryptotillgänglighet
Företag Nyhetsrapport Teknologi
Pantera Capital investerar i TON Blockchain, uttrycker förtroende för Telegrams potential att bredda kryptotillgänglighet
Maj 2, 2024
Mitosis samlar in 7 miljoner dollar i finansiering från Amber Group och foresight Ventures för att främja sitt modulära likviditetsprotokoll
Företag Nyhetsrapport Teknologi
Mitosis samlar in 7 miljoner dollar i finansiering från Amber Group och foresight Ventures för att främja sitt modulära likviditetsprotokoll
Maj 2, 2024
Galxe samarbetar med Jambo för att utöka den globala tillgängligheten till Web3
Företag Nyhetsrapport Teknologi
Galxe samarbetar med Jambo för att utöka den globala tillgängligheten till Web3
Maj 2, 2024