Novinová správa Technológia
Novembra 23, 2022

Sber AI predstavil Kandinsky 2.0, prvý model prevodu textu na obrázok na generovanie vo viac ako 100 jazykoch

Stručne

Kandinsky 2.0, prvý viacjazyčný difúzny model, bol vytvorený a trénovaný výskumníkmi Sber AI s pomocou výskumníkov z Inštitútu umelej inteligencie AI pomocou kombinovaného súboru údajov 1 miliardy párov text-obrázok od Sber AI a SberDevices.

Difúzia čoraz viac nahrádza GAN a autoregresívne modely v mnohých úlohách spracovania digitálneho obrazu. Nie je to prekvapujúce, pretože difúzia sa ľahšie učí, nevyžaduje zložitý výber hyperparametrov, min-max optimalizáciu a netrpí nestabilitou učenia. A čo je najdôležitejšie, modely difúzie demonštrujú najmodernejšie výsledky takmer vo všetkých generatívnych úlohách – generovanie obrázkov pomocou textu, generovanie zvuku, videa a dokonca 3D.

Sber AI predstavil Kandinsky 2.0, prvý model prevodu textu na obrázok na generovanie vo viac ako 100 jazykoch
Obrázok vytvorený Kandinsky AI

Bohužiaľ, väčšina prác v oblasti text-to-something sa zameriava len na angličtinu a čínštinu. Na nápravu tejto nespravodlivosti, Sber AI rozhodol vytvoriť viacjazyčný model šírenia textu na obrázok Kandinsky 2.0, ktorý rozumie dopytom vo viac ako 100 jazykoch. HuggingFace už ponúka Kandinsky 2.0. Výskumníci zo SberAI a SberDevices majú spolupracoval s odborníkmi z Inštitútu umelej inteligencie na tento projekt.

Čo je to difúzia?

V článku z roku 2015 Hlboké učenie bez dozoru pomocou nerovnovážnej termodynamiky, boli modely difúzie prvýkrát opísané ako akt zmiešania látky, ktorý vedie k difúzii, ktorá vyrovnáva distribúciu. Ako už z názvu článku vyplýva, k vysvetleniu difúznych modelov pristúpili cez termodynamiku.

V prípade obrázkov by takýto proces mohol pripomínať napríklad postupné odstraňovanie Gaussovho šumu z obrázku.

Papierové modely difúzie Poraziť GANs on Image Synthesis, publikované v roku 2021, boli prvé, ktoré ukázali nadradenosť modelov difúzie nad GANS. Autori tiež vymysleli riadiaci prístup prvej generácie (podmieňovanie), ktorý nazvali klasifikátorové vedenie. Táto metóda vytvára objekty, ktoré zodpovedajú zamýšľanej triede pomocou prechodov z iného klasifikátora (napríklad psy). Prostredníctvom mechanizmu Adaptive Group Norm, ktorý zahŕňa predpovedanie normalizačných koeficientov, sa vykonáva samotná kontrola.

Tento článok možno považovať za prelomový bod v oblasti generatívnej AI, ktorý mnohých viedol k tomu, aby sa obrátili na štúdium difúzie. Nové články o text-to-video, prevod textu na 3D, obrázok maliarstvo, generovanie zvuku, difúzia pre superrozlíšeniea dokonca aj generovanie pohybu sa začalo objavovať každých pár týždňov.

Šírenie textu na obrázok

Ako sme už spomenuli, redukcia šumu a eliminácia šumu sú zvyčajne hlavnými komponentmi difúznych procesov v kontexte obrazových modalít, takže UNet a jej mnohé variácie sa často používajú ako základná architektúra.

Šírenie textu na obrázok
Šírenie textu na obrázok

Je nevyhnutné, aby sa tento text pri generovaní nejakým spôsobom zohľadnil, aby sa na základe neho vytvoril obraz. Autori OpenAI článok o modeli GLIDE navrhol upraviť prístup bez klasifikátora pre text.

Použitie zmrazených vopred ožiarených kódovačov textu a mechanizmus na zvýšenie kaskádového rozlíšenia v budúcnosti výrazne zlepšili produkciu textu (Obraz). Ukázalo sa, že nebolo potrebné trénovať textovú časť modely text-to-image pretože používanie zamrznutého T5-xxl viedlo k značne zlepšenej kvalite obrazu a porozumeniu textu a spotrebovalo oveľa menej školiacich zdrojov.

Autori a Latentná difúzia článok ukázal, že obrazová zložka v skutočnosti nevyžaduje školenie (aspoň nie úplne). Učenie bude prebiehať ešte rýchlejšie, ak použijeme výkonný automatický kódovač obrazu (VQ-VAE alebo KL-VAE) ako vizuálny dekodér a pokúsime sa vytvoriť vloženie z jeho latentného priestoru difúziou, a nie samotným obrazom. Táto metodika je tiež základom nedávno vydanej Stable Diffusion model.

Model Kandinsky 2.0 AI

S niekoľkými kľúčovými vylepšeniami je Kandinsky 2.0 založený na vylepšenej technike latentnej difúzie (nevytvárame obrázky, ale skôr ich latentné vektory):

  • Použili dva viacjazyčné textové kódovače a zreťazili ich vloženia.
  • Pridaný UNet (1.2 miliardy parametrov).
  • Postup vzorkovania dynamické prahovanie.
Model Kandinsky 2.0 AI
Model Kandinsky 2.0 AI

Výskumníci použili dva viacjazyčné kódovače súčasne – XLMR-clip a mT5-small – aby vytvorili model naozaj viacjazyčné. Model teda okrem angličtiny, ruštiny, francúzštiny a nemčiny dokáže rozumieť aj jazykom ako mongolčina, hebrejčina a perzština. AI pozná celkovo 101 jazykov. Prečo bolo rozhodnuté kódovať text pomocou dvoch modelov súčasne? Keďže XLMR-clip videl obrázky a poskytuje úzke vloženie pre rôzne jazyky a mT5-small je schopný porozumieť zložitým textom, tieto modely majú odlišné, ale kľúčové vlastnosti. Keďže oba modely majú len malý počet parametrov (560M a 146M), ako ukázali naše predbežné testy, bolo rozhodnuté použiť dva snímače súčasne.

Čerstvo vygenerované obrázky pomocou modelu Kandinsky 2.0 AI nižšie:

Ako prebiehal tréning modelu Kandinsky 2.0?

Na školenie na platforme ML Space boli použité superpočítače Christofari. Na to bolo potrebných 196 kariet NVIDIA A100, každá s 80 GB RAM. Dokončenie školenia trvalo 14 dní alebo 65,856 256 GPU hodín. Analýza trvala päť dní pri rozlíšení 256 × 512, nasledovalo šesť dní pri rozlíšení 512 × XNUMX a potom ďalšie tri dni na najčistejších údajoch.

Ako tréningové údaje sa skombinovalo veľa súborov údajov, ktoré boli predfiltrované na vodoznaky, nízke rozlíšenie a nízku priľnavosť k textovému popisu, ako sa meria metrikou skóre CLIP.

Viacjazyčná generácia

Kandinsky 2.0 je prvý viacjazyčný model na vytváranie obrázkov zo slov, ktorý nám dáva prvú šancu posúdiť jazykové a vizuálne zmeny v jazykových kultúrach. Výsledky prekladu toho istého dopytu do niekoľkých jazykov sú uvedené nižšie. Napríklad vo výsledkoch generácie pre ruský dopyt „osoba s vyšším vzdelaním“ sa objavujú iba bieli muži, zatiaľ čo výsledky pre francúzsky preklad „Photo d'une personne diplômée de l'enseignement supérieur“ sú rôznorodejšie. Chcel by som zdôrazniť, že smútiaci ľudia s vyšším vzdelaním sú prítomní iba v ruskom vydaní.

Viacjazyčná generácia
Výzva: lupič (1. ruština, 2. angličtina, 3. hindčina)
Viacjazyčná generácia
Výzva: osoba s vyšším vzdelaním (1. ruština, 2. francúzština, 3. čínština)
Viacjazyčná generácia
Pomôcka: národné jedlo (1. ruské, 2. japonské, 3. hindské)

Hoci je ešte stále naplánovaných veľa pokusov s obrovskými jazykovými modelmi a rôznymi metódami procesu šírenia, už teraz môžeme s istotou vyhlásiť, že Kandinsky 2.0 je prvý úplne viacjazyčný model šírenia! Na Webová stránka FusionBrain a google colab, môžete vidieť ukážky jej kresieb.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac

Zakladatelia Peňaženky Samourai boli obvinení z uľahčenia obchodov Darknet v hodnote 2 miliárd USD

Obavy zakladateľov Peňaženky Samourai predstavujú pre odvetvie pozoruhodnú prekážku, ktorá podčiarkuje pretrvávajúcu ...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Člen hongkonskej legislatívnej rady Wu Jiezhuang signalizuje občiansky žalobu proti krypto burze JPEX
firmy Novinová správa Technológia
Člen hongkonskej legislatívnej rady Wu Jiezhuang signalizuje občiansky žalobu proti krypto burze JPEX
Môže 2, 2024
AltLayer vstupuje do druhej fázy svojej stávkovej iniciatívy, predstavuje reALT Token
trhy Novinová správa Technológia
AltLayer vstupuje do druhej fázy svojej stávkovej iniciatívy, predstavuje reALT Token
Môže 2, 2024
Reťazec BNB zverejnil správu za 1. štvrťrok 2024, v ktorej sa zdôrazňuje 55.8 % zníženie straty hodnoty, zatiaľ čo BSC TVL stúpne o 70.8 %
trhy Novinová správa Technológia
Reťazec BNB zverejnil správu za 1. štvrťrok 2024, v ktorej sa zdôrazňuje 55.8 % zníženie straty hodnoty, zatiaľ čo BSC TVL stúpne o 70.8 %
Môže 2, 2024
Naver a Kakao's Kaia: Nová ázijská blockchainová elektráreň pripravená narušiť globálne krypto trhy
firmy Softvér Príbehy a recenzie Technológia
Naver a Kakao's Kaia: Nová ázijská blockchainová elektráreň pripravená narušiť globálne krypto trhy
Môže 2, 2024
CRYPTOMERIA LABS PTE. LTD.