Listopadu 23, 2022

Sber AI představila Kandinsky 2.0, první model převodu textu na obrázek pro generování ve více než 100 jazycích

Zveřejněno: 23. listopadu 2022 v 1:23 Aktualizováno: 23. listopadu 2022 v 1:23

Stručně

Kandinsky 2.0, první vícejazyčný difúzní model, byl vytvořen a trénován výzkumníky Sber AI s pomocí výzkumníků z AI Institute of Artificial Intelligence pomocí kombinované datové sady 1 miliardy textových párů od Sber AI a SberDevices.

Difúze stále více nahrazuje GAN a autoregresivní modely v řadě úloh digitálního zpracování obrazu. To není překvapivé, protože difuze se snáze učí, nevyžaduje složitý výběr hyperparametrů, optimalizaci min-max a netrpí nestabilitou učení. A co je nejdůležitější, modely difúze demonstrují nejmodernější výsledky u téměř všech generativních úloh – generování obrazu pomocí textu, generování zvuku, videa a dokonce 3D.

Sber AI představila Kandinsky 2.0, první model převodu textu na obrázek pro generování ve více než 100 jazycích — Obrázek vytvořený Kandinsky AI

Bohužel většina prací v oblasti text-to-something se zaměřuje pouze na angličtinu a čínštinu. K nápravě této nespravedlnosti, Sber AI rozhodl vytvořit vícejazyčný model šíření textu do obrázku Kandinsky 2.0, který rozumí dotazům ve více než 100 jazycích. Objímání tváře již nabízí Kandinsky 2.0. Výzkumníci ze SberAI a SberDevices mají spolupracovali s odborníky z Institutu umělé inteligence na tento projekt.

Co je to difúze?

V článku z roku 2015 Hluboké učení bez dozoru pomocí nerovnovážné termodynamikybyly modely difúze poprvé popsány jako akt míšení látky, jehož výsledkem je difúze, která vyrovnává distribuci. Jak vyplývá z názvu článku, přistoupili k vysvětlení modelů difúze v rámci termodynamiky.

V případě obrázků by takový proces mohl připomínat například postupné odstraňování Gaussova šumu z obrázku.

Papírové modely difúze Porazit GANs on Image Synthesis, publikované v roce 2021, byly první, které ukázaly převahu modelů difúze nad GANS. Autoři také vymysleli řídicí přístup první generace (podmiňování), který nazvali klasifikátorové vedení. Tato metoda vytváří objekty, které odpovídají zamýšlené třídě pomocí přechodů z jiného klasifikátoru (například psi). Prostřednictvím mechanismu Adaptive Group Norm, který zahrnuje předpovídání normalizačních koeficientů, se provádí samotná kontrola.

Tento článek lze považovat za přelomový bod v oblasti generativní umělé inteligence, který mnohé vedl k tomu, aby se obrátili ke studiu difúze. Nové články o převod textu na video, převod textu do 3D, obraz malba, generování zvuku, difúze pro superrozlišenía dokonce i generování pohybu se začalo objevovat každých pár týdnů.

Šíření textu do obrázku

Jak jsme již zmínili dříve, redukce šumu a eliminace šumu jsou typicky hlavními složkami difúzních procesů v kontextu obrazových modalit, takže UNet a jeho mnohé variace jsou často používány jako základní architektura.

Je nezbytné, aby byl tento text při generování nějakým způsobem zohledněn, aby se na jeho základě vytvořil obrázek. Autoři OpenAI článek o modelu GLIDE navrhl upravit přístup bez klasifikátorů pro text.

Použití zmrazených předem ozářených textových kodérů a kaskádového mechanismu pro vylepšení rozlišení v budoucnu výrazně zlepšilo produkci textu (Obraz). Ukázalo se, že nebylo třeba trénovat textovou část modely text-to-image protože použití zmrazeného T5-xxl vedlo ke značnému zlepšení kvality obrazu a porozumění textu a spotřebovalo mnohem méně školicích prostředků.

Autoři a Latentní difúze článek ukázal, že obrázková složka ve skutečnosti nevyžaduje školení (alespoň ne úplně). Učení bude probíhat ještě rychleji, pokud použijeme výkonný autokodér obrazu (VQ-VAE nebo KL-VAE) jako vizuální dekodér a pokusíme se generovat vložení z jeho latentního prostoru difúzí spíše než samotný obraz. Tato metodika je také základem nedávno vydané Stable Diffusion model.

Model Kandinsky 2.0 AI

S několika klíčovými vylepšeními je Kandinsky 2.0 založen na vylepšené technice latentní difúze (nevytváříme obrázky, ale jejich latentní vektory):

Použil dva vícejazyčné textové kodéry a zřetězil jejich vložení.
Přidán UNet (1.2 miliardy parametrů).
Dynamické prahování procedury vzorkování.

Výzkumníci použili dva vícejazyčné kodéry současně – XLMR-clip a mT5-small – aby vytvořili model opravdu mnohojazyčný. Model tedy kromě angličtiny, ruštiny, francouzštiny a němčiny rozumí také jazykům jako mongolština, hebrejština a perština. Umělá inteligence zná celkem 101 jazyků. Proč bylo rozhodnuto kódovat text pomocí dvou modelů současně? Vzhledem k tomu, že XLMR-clip viděl obrázky a poskytuje blízké vložení pro různé jazyky a mT5-small je schopen porozumět složitým textům, mají tyto modely různé, ale zásadní vlastnosti. Protože oba modely mají jen malý počet parametrů (560M a 146M), jak ukázaly naše předběžné testy, bylo rozhodnuto použít dva enkodéry současně.

Čerstvě vygenerované obrázky pomocí modelu Kandinsky 2.0 AI níže:

Jak probíhalo školení modelu Kandinsky 2.0?

Pro školení na platformě ML Space byly použity superpočítače Christofari. Vyžadovalo to 196 karet NVIDIA A100, každá s 80 GB RAM. Dokončení školení trvalo 14 dní nebo 65,856 256 GPU hodin. Analýza trvala pět dní při rozlišení 256 × 512, následovalo šest dní při rozlišení 512 × XNUMX a poté další tři dny na nejčistších datech.

Jako trénovací data bylo zkombinováno mnoho datových sad, které byly předfiltrovány na vodoznaky, nízké rozlišení a nízkou přilnavost k textovému popisu, měřeno metrikou CLIP-score.

Vícejazyčná generace

Kandinsky 2.0 je prvním vícejazyčným modelem pro vytváření obrázků ze slov, který nám dává první šanci posoudit jazykové a vizuální změny napříč jazykovými kulturami. Výsledky překladu stejného dotazu do několika jazyků jsou uvedeny níže. Například v generačních výsledcích pro ruský dotaz „osoba s vyšším vzděláním“ se objevují pouze bílí muži, zatímco výsledky pro francouzský překlad „Photo d'une personne diplômée de l'enseignement supérieur“ jsou rozmanitější. Rád bych upozornil, že smutní lidé s vyšším vzděláním jsou přítomni pouze v ruskojazyčném vydání.

Přestože je v plánu ještě spousta zkoušek s obrovskými jazykovými modely a různými metodami procesu šíření, již nyní můžeme s jistotou prohlásit, že Kandinsky 2.0 je prvním zcela vícejazyčným modelem šíření! Na Web FusionBrain a google colab, můžete vidět ukázky jejích kreseb.

Přečtěte si více o AI:

Tagy:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.

Další články

Damir Yalalov