Noyabr 23, 2022

Sber AI 2.0 dan ortiq tillarda yaratish uchun birinchi matndan tasvirga model Kandinskiy 100 ni taqdim etdi.

Nashr qilingan: 23 yil 2022-noyabr, 1:23 Yangilangan: 23-noyabr, 2022:1

Qisqacha

Kandinskiy 2.0, birinchi ko'p tilli diffuziya modeli, Sber AI tadqiqotchilari tomonidan AI Sun'iy intellekt instituti tadqiqotchilari yordamida Sber AI va SberDevices-dan 1 milliard matn-tasvir juftliklarining birlashtirilgan ma'lumotlar to'plamidan foydalangan holda yaratilgan va o'qitilgan.

Diffuziya raqamli tasvirni qayta ishlashning bir qator vazifalarida GAN va avtoregressiv modellarni tobora ko'proq almashtirmoqda. Buning ajablanarli joyi yo'q, chunki diffuziyani o'rganish osonroq, giperparametrlarni kompleks tanlashni, min-maks optimallashtirishni talab qilmaydi va o'rganishning beqarorligidan aziyat chekmaydi. Va eng muhimi, diffuziya modellari deyarli barcha generativ vazifalarda eng zamonaviy natijalarni namoyish etadi - matn, ovoz yaratish, video va hattoki tasvirni yaratish. 3D.

Sber AI 2.0 dan ortiq tillarda yaratish uchun birinchi matndan tasvirga model Kandinskiy 100 ni taqdim etdi. — Kandinskiy AI tomonidan yaratilgan tasvir

Afsuski, matnni bir narsaga aylantirish sohasidagi ishlarning aksariyati faqat ingliz va xitoy tillariga qaratilgan. Ushbu adolatsizlikni tuzatish uchun Sber AI yaratishga qaror qildi 2.0 dan ortiq tillarda so'rovlarni tushunadigan ko'p tilli matndan tasvirga diffuziya modeli Kandinskiy 100. HuggingFace allaqachon Kandinsky 2.0 ni taklif qiladi. SberAI va SberDevices tadqiqotchilari bor hamkorlik qildi ushbu loyiha bo'yicha sun'iy intellekt AI instituti mutaxassislari bilan.

Diffuziya nima?

2015 yilgi maqolada Muvozanatsiz termodinamikadan foydalangan holda chuqur nazoratsiz o'rganish, diffuziya modellari birinchi marta taqsimlanishni tenglashtiradigan diffuziyaga olib keladigan moddani aralashtirish harakati sifatida tasvirlangan. Maqolaning nomidan ko'rinib turibdiki, ular termodinamika doirasida diffuziya modellarini tushuntirishga yaqinlashdilar.

Tasvirlar uchun bunday jarayon, masalan, Gauss shovqinini asta-sekin tasvirdan olib tashlashga o'xshaydi.

Qog'oz diffuziya modellari Beat 2021-yilda nashr etilgan Tasvir sintezidagi GANlar birinchi bo'lib diffuziya modellarining GANS-dan ustunligini ko'rsatdi. Mualliflar, shuningdek, klassifikator yo'riqnomasi deb nomlagan birinchi avlod boshqaruv yondashuvini (konditsionerni) ishlab chiqdilar. Bu usul boshqa klassifikatordan (masalan, itlar) gradientlar yordamida mo'ljallangan sinfga mos ob'ektlarni yaratadi. Oddiylashtirish koeffitsientlarini prognozlashni o'z ichiga olgan Adaptiv guruh normalari mexanizmi orqali nazoratning o'zi amalga oshiriladi.

Ushbu maqolani generativ AI sohasidagi burilish nuqtasi sifatida ko'rish mumkin, bu ko'pchilikni diffuziyani o'rganishga olib keladi. haqida yangi maqolalar matndan videoga, matndan 3Dga, tasvir bo'yash, audio avlod, uchun diffuziya super rezolyutsiya, va hatto harakat avlodi har bir necha haftada paydo bo'la boshladi.

Matndan rasmga tarqalishi

Yuqorida aytib o'tganimizdek, shovqinni kamaytirish va shovqinni yo'q qilish odatda tasvir usullari kontekstida diffuziya jarayonlarining asosiy komponentlari hisoblanadi, shuning uchun UNet va uning ko'plab o'zgarishlari asosiy arxitektura sifatida tez-tez ishlatiladi.

Bu matn asosida tasvir yaratish uchun avlod davomida qaysidir ma'noda e'tiborga olinishi kerak. ning mualliflari OpenAI GLIDE modeli haqidagi maqola matn uchun klassifikatorsiz ko'rsatma yondashuvini o'zgartirishni taklif qildi.

Muzlatilgan oldindan nurlangan matn kodlovchilaridan foydalanish va kaskad o'lchamlarini oshirish mexanizmi kelajakda matn ishlab chiqarishni sezilarli darajada yaxshiladi (Tasavvur qiling). Matn qismini o'rgatishning hojati yo'qligi ma'lum bo'ldi matndan tasvirga modellar chunki muzlatilgan T5-xxl dan foydalanish tasvir sifati va matnni tushunishni sezilarli darajada yaxshilagan va o'quv resurslaridan ancha kam foydalanilgan.

Mualliflari Yashirin diffuziya Maqolada rasm komponenti aslida treningni talab qilmasligini ko'rsatdi (hech bo'lmaganda to'liq emas). Agar biz vizual dekoder sifatida kuchli tasvir avtokoderidan (VQ-VAE yoki KL-VAE) foydalansak va tasvirning o'zidan ko'ra diffuziya yo'li bilan uning yashirin bo'shlig'idan joylashishni yaratishga harakat qilsak, o'rganish yanada tez davom etadi. Ushbu metodologiya ham yaqinda chiqarilganlarning asosidir Stable Diffusion model.

Kandinskiy 2.0 AI modeli

Bir nechta asosiy yaxshilanishlar bilan Kandinskiy 2.0 takomillashtirilgan yashirin diffuziya texnikasiga asoslangan (biz tasvirlarni emas, balki ularning yashirin vektorlarini yaratamiz):

Ikkita ko'p tilli matn kodlovchilaridan foydalandi va ularning o'rnatilishini birlashtirdi.
UNet qo'shildi (1.2 milliard parametr).
Namuna olish jarayonining dinamik chegarasi.

Tadqiqotchilar bir vaqtning o'zida ikkita ko'p tilli kodlovchilardan - XLMR-klip va mT5-small-dan foydalanganlar. model haqiqatan ham ko'p tilli. Shuning uchun, model ingliz, rus, frantsuz va nemis tillaridan tashqari, mo'g'ul, ibroniy va fors kabi tillarni ham tushuna oladi. AI jami 101 tilni biladi. Nega bir vaqtning o'zida ikkita model yordamida matnni kodlashga qaror qilindi? XLMR-klip rasmlarni ko'rganligi va turli tillar uchun yaqin joylashtirishni ta'minlaganligi va mT5-small murakkab matnlarni tushunishga qodir bo'lganligi sababli, bu modellar turli xil, ammo muhim xususiyatlarga ega. Ikkala model ham oz sonli parametrlarga ega (560M va 146M), bizning dastlabki sinovlarimiz tomonidan ko'rsatilgandek, bir vaqtning o'zida ikkita enkoderdan foydalanishga qaror qilindi.

Quyida Kandinsky 2.0 AI modeli tomonidan yangi yaratilgan tasvirlar:

Kandinskiy 2.0 modelini o'qitish qanday amalga oshirildi?

ML Space platformasida o'qitish uchun Christofari superkompyuterlaridan foydalanilgan. Buning uchun har biri 196 GB operativ xotiraga ega 100 ta NVIDIA A80 kartalari kerak edi. Treningni yakunlash uchun 14 kun yoki 65,856 256 GPU-soat kerak bo'ldi. Tahlil 256 × 512 piksellar sonida besh kun, so'ngra 512 × XNUMX piksellar sonida olti kun, so'ngra eng toza ma'lumotlar uchun qo'shimcha uch kun davom etdi.

O'quv ma'lumotlari sifatida suv belgilari, past piksellar sonini va CLIP-baho ko'rsatkichi bilan o'lchanadigan matn tavsifiga past rioya qilish uchun oldindan filtrlangan ko'plab ma'lumotlar to'plamlari birlashtirildi.

Ko'p tilli avlod

Kandinsky 2.0 so'zlardan tasvirlar yaratish uchun birinchi ko'p tilli model bo'lib, bizga til madaniyatlari bo'yicha lingvistik va vizual o'zgarishlarni baholash uchun birinchi imkoniyatni beradi. Xuddi shu so'rovni bir nechta tillarga tarjima qilish natijalari quyida ko'rsatilgan. Masalan, ruscha “oliy ma’lumotli odam” so‘rovi uchun avlod natijalarida faqat oq tanli erkaklar ko‘rinadi, frantsuzcha “Photo d'une personne diplômée de l'enseignement supérieur” tarjimasi natijalari esa ko‘proq rang-barangdir. Shuni ta'kidlashni istardimki, oliy ma'lumotli qayg'uli odamlar faqat rus tilidagi nashrda mavjud.

Hali ham ulkan til modellari va diffuziya jarayonining turli usullari bilan bir necha tonna sinovlar rejalashtirilgan bo'lsa-da, biz allaqachon ishonch bilan aytishimiz mumkinki, Kandinsky 2.0 birinchi to'liq ko'p tilli tarqatish modelidir! Ustida FusionBrain veb-sayti va google kolab, siz uning chizgan namunalarini ko'rishingiz mumkin.

AI haqida ko'proq o'qing:

Tags:

Masʼuliyatdan voz kechish

Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.

Muallif haqida

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.

Boshqa maqolalar

Damir Yalolov