November 23, 2022

A Sber AI bemutatta a Kandinsky 2.0-t, az első szöveg-kép modellt, amely több mint 100 nyelven generál

Közzétéve: 23. november 2022. 1:23 Frissítve: 23. november 2022. 1:23

Röviden

A Kandinsky 2.0-t, az első többnyelvű diffúziós modellt a Sber AI kutatói hozták létre és képezték ki az AI Institute of Artificial Intelligence kutatóinak segítségével a Sber AI és a SberDevices 1 milliárd szöveg-képpárból álló kombinált adatkészletének felhasználásával.

A diffúzió egyre inkább felváltja a GAN-okat és az autoregresszív modelleket számos digitális képfeldolgozási feladatban. Ez nem meglepő, mert a diffúzió könnyebben megtanulható, nem igényel komplex hiperparaméter-választást, min-max optimalizálást, és nem szenved tanulási instabilitástól. És ami a legfontosabb, a diffúziós modellek a legkorszerűbb eredményeket mutatják szinte minden generatív feladatban – képalkotás szövegenként, hanggenerálás, videó és még 3D.

A Sber AI bemutatta a Kandinsky 2.0-t, az első szöveg-kép modellt, amely több mint 100 nyelven generál — A képet a Kandinsky AI készítette

Sajnálatos módon a szöveg-valamivé alakítás területén a legtöbb munka csak az angolra és a kínaira összpontosít. Ennek az igazságtalanságnak a kijavítására a Sber AI létrehozása mellett döntött egy többnyelvű szöveg-kép diffúziós modell, a Kandinsky 2.0, amely több mint 100 nyelven érti a lekérdezéseket. HuggingFace már kínálja a Kandinsky 2.0-t. A SberAI és a SberDevices kutatói megtették együtt az AI Institute of Artificial Intelligence szakértőivel ebben a projektben.

Mi a diffúzió?

A 2015-ös cikkben Mély, felügyelet nélküli tanulás a nem egyensúlyi termodinamikávalA diffúziós modelleket először úgy írták le, mint egy anyag összekeverését, ami diffúziót eredményez, ami kiegyenlíti az eloszlást. Ahogy a cikk címe is sugallja, a diffúziós modellek magyarázatát a termodinamika keretein keresztül közelítették meg.

A képek esetében ez a folyamat hasonlíthat például a Gauss-zaj fokozatos eltávolítására a képről.

A papír diffúziós modellek Üt A 2021-ben megjelent GANs on Image Synthesis volt az első, amely megmutatta a diffúziós modellek felsőbbrendűségét a GANS-sel szemben. A szerzők kidolgozták az első generációs szabályozási megközelítést (kondicionálás), amelyet osztályozói útmutatónak neveztek el. Ez a metódus olyan objektumokat hoz létre, amelyek illeszkednek a tervezett osztályhoz egy másik osztályozóból származó színátmenetek segítségével (például kutyák). Az Adaptive Group Norm mechanizmuson keresztül, amely magában foglalja a normalizációs együtthatók előrejelzését, maga a szabályozás valósul meg.

Ez a cikk fordulópontnak tekinthető a generatív mesterséges intelligencia területén, sokakat arra késztet, hogy a diffúzió tanulmányozása felé forduljanak. Új cikkek erről szövegből videóba, szöveg 3D-be, kép festés, hanggenerálás, diffúzió számára szuperfelbontás, sőt néhány hetente kezdett megjelenni a mozgásgeneráció.

Szöveg-kép diffúzió

Amint azt korábban említettük, a zajcsökkentés és a zajszűrés jellemzően a diffúziós folyamatok fő összetevője a képi modalitásokkal összefüggésben, így az UNet és annak számos változata gyakran az alapvető architektúra.

Lényeges, hogy ezt a szöveget valamilyen módon figyelembe vegyék a generálás során, hogy az alapján képet alkossanak. A szerzők a OpenAI cikk a GLIDE modellről javasolta az osztályozó nélküli útmutatási megközelítés módosítását a szöveghez.

A fagyasztott, előre besugárzott szövegkódolók és a kaszkád felbontás-javító mechanizmus alkalmazása a jövőben jelentősen javította a szövegalkotást (Kép). Kiderült, hogy nincs szükség a szövegrész betanítására szöveg-kép modellek mivel a fagyasztott T5-xxl használata lényegesen jobb képminőséget és szövegértést eredményezett, és sokkal kevesebb képzési erőforrást használt fel.

A szerzők a Látens diffúzió cikk kimutatta, hogy a képkomponens valójában nem igényel képzést (legalábbis nem teljesen). A tanulás még gyorsabban megy végbe, ha egy nagy teljesítményű képautomatikus kódolót (VQ-VAE vagy KL-VAE) használunk vizuális dekóderként, és megpróbálunk beágyazásokat generálni a látens térből diffúzióval, nem pedig magával a képpel. Ez a módszertan az alapja a nemrég megjelent Stable Diffusion modell.

Kandinsky 2.0 AI modell

Néhány fontosabb fejlesztéssel a Kandinsky 2.0 egy továbbfejlesztett látens diffúziós technikán alapul (nem képeket készítünk, hanem azok látens vektorait):

Két többnyelvű szövegkódolót alkalmazott, és összefűzte a beágyazásaikat.
UNet hozzáadva (1.2 milliárd paraméter).
Mintavételi eljárás dinamikus küszöbérték.

A kutatók egyidejűleg két többnyelvű kódolót – XLMR-klipet és mT5-small-t – alkalmaztak annak érdekében, hogy a modell tényleg többnyelvű. Ezért az angol, orosz, francia és német mellett a modell olyan nyelveket is megért, mint a mongol, a héber és a perzsa. Az AI összesen 101 nyelvet ismer. Miért döntöttek úgy, hogy egyidejűleg két modellel kódolják a szöveget? Mivel az XLMR-clip képeket látott és szoros beágyazást biztosít különböző nyelvekhez, az mT5-small pedig képes bonyolult szövegek megértésére, ezek a modellek eltérő, de alapvető jellemzőkkel rendelkeznek. Mivel mindkét modellnek csak kis számú paramétere van (560M és 146M), amint azt előzetes tesztjeink is mutatták, ezért úgy döntöttünk, hogy két kódolót használunk egyidejűleg.

Frissen generált képek a Kandinsky 2.0 AI modellről alább:

Hogyan zajlott a Kandinsky 2.0 modellképzés?

Christofari szuperszámítógépeket használtak a képzéshez az ML Space platformon. 196 NVIDIA A100 kártyát igényelt, mindegyik 80 GB RAM-mal. 14 napba, azaz 65,856 256 GPU-órába telt a képzés befejezése. Az elemzés öt napig tartott 256 × 512 felbontással, majd hat napig 512 × XNUMX felbontással, majd további három napig a legtisztább adatokon.

Tanítási adatokként sok olyan adatkészletet kombináltak, amelyeket előre megszűrtek vízjelekre, alacsony felbontásra és a szöveges leíráshoz való csekély tapadásra, a CLIP-pontszám mérőszáma alapján.

Többnyelvű generáció

A Kandinsky 2.0 az első többnyelvű modell szavakból képek létrehozására, így az első lehetőséget kínálja a nyelvi kultúrák nyelvi és vizuális változásainak felmérésére. Ugyanannak a lekérdezésnek több nyelvre történő lefordításának eredménye az alábbiakban látható. Például az „egy felsőfokú végzettségű személy” orosz lekérdezés generációs eredményei között csak fehér férfiak jelennek meg, míg a „Photo d'une personne diplômée de l'enseignement supérieur” francia fordítás eredményei változatosabbak. Szeretném felhívni a figyelmet arra, hogy a bánatos felsőfokú végzettségűek csak az orosz nyelvű kiadásban vannak jelen.

Bár még rengeteg kísérletet terveznek hatalmas nyelvi modellekkel és a diffúziós folyamat különböző módszereivel, már most bátran kijelenthetjük, hogy a Kandinsky 2.0 az első teljesen többnyelvű terjesztési modell! A FusionBrain weboldal és a google colab, láthat példákat a rajzaira.

Tudjon meg többet az AI-ról:

Címkék:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.

További cikkek

Damir Jalalov