Sber AI 2.0-dən çox dildə yaratmaq üçün ilk mətndən-şəklə çevrilən Kandinsky 100 modelini təqdim etdi.
Qısaca
İlk çoxdilli diffuziya modeli olan Kandinsky 2.0 Sber AI tədqiqatçıları tərəfindən Sber AI və SberDevices-dən 1 milyard mətn-şəkil cütlüyünün birləşmiş məlumat dəstindən istifadə edərək Süni İntellekt İnstitutunun tədqiqatçılarının köməyi ilə yaradılmış və öyrədilmişdir.
Diffuziya getdikcə bir sıra rəqəmsal təsvirin işlənməsi tapşırıqlarında GAN-ları və avtoreqressiv modelləri əvəz edir. Bu təəccüblü deyil, çünki diffuziya öyrənmək daha asandır, hiperparametrlərin kompleks seçimini, min-maksimum optimallaşdırmanı tələb etmir və öyrənmə qeyri-sabitliyindən əziyyət çəkmir. Və ən əsası, diffuziya modelləri demək olar ki, bütün generativ tapşırıqlar üzrə ən müasir nəticələr nümayiş etdirir - mətn, səs, video və hətta görüntü yaratmaq. 3D.
Təəssüf ki, mətndən bir şeyə sahəsində işlərin əksəriyyəti yalnız ingilis və çin dillərinə yönəlib. Bu ədalətsizliyi düzəltmək üçün Sber AI yaratmağa qərar verdi 2.0-dən çox dildə sorğuları anlayan Kandinsky 100 çoxdilli mətndən şəkilə diffuziya modeli. HuggingFace artıq Kandinsky 2.0 təklif edir. SberAI və SberDevices-in tədqiqatçıları var əməkdaşlıq etdi bu layihə ilə bağlı AI Süni İntellekt İnstitutunun mütəxəssisləri ilə.
Diffuziya nədir?
2015-ci il məqaləsində Qeyri-tarazlıq termodinamikasından istifadə edərək dərin nəzarətsiz öyrənmə, diffuziya modelləri ilk dəfə paylanmanı bərabərləşdirən diffuziya ilə nəticələnən maddənin qarışdırılması aktı kimi təsvir edilmişdir. Məqalənin adından da göründüyü kimi onlar diffuziya modellərinin izahına termodinamika çərçivəsində yanaşmışlar.
Şəkillər vəziyyətində, belə bir proses, məsələn, Gauss səs-küyünün tədricən aradan qaldırılmasına bənzəyir.
Kağız diffuziya modelləri Döymək 2021-ci ildə nəşr olunan GANs on Image Synthesis, diffuziya modellərinin GANS-dən üstünlüyünü göstərən ilk idi. Müəlliflər həmçinin birinci nəsil nəzarət yanaşmasını (kondisioner) işləyib hazırlamışlar ki, onlar bunu təsnifat rəhbərləri adlandırıblar. Bu üsul fərqli təsnifatçıdan (məsələn, itlər) gradientlərdən istifadə edərək nəzərdə tutulan sinfə uyğun obyektlər yaradır. Normallaşma əmsallarının proqnozlaşdırılmasını nəzərdə tutan Adaptiv Qrup Norm mexanizmi vasitəsilə nəzarət özü həyata keçirilir.
Bu məqalə generativ süni intellekt sahəsində dönüş nöqtəsi kimi qiymətləndirilə bilər ki, bu da çoxlarının diffuziya öyrənilməsinə yönəlməsinə səbəb olur. haqqında yeni məqalələr mətndən videoya, mətndən 3D-yə, şəkil boyama, audio nəsil, üçün diffuziya super rezolyusiya, və hətta hərəkət nəsli bir neçə həftədən bir görünməyə başladı.
Mətndən şəkilə yayılması
Daha əvvəl qeyd etdiyimiz kimi, səs-küyün azaldılması və səs-küyün aradan qaldırılması adətən görüntü modallıqları kontekstində diffuziya proseslərinin əsas komponentləridir, buna görə də UNet və onun bir çox variasiyaları əsas arxitektura kimi tez-tez istifadə olunur.
Bu mətn əsasında obraz yaratmaq üçün onun nəsil boyu onun müəyyən mənada nəzərə alınması vacibdir. Müəllifləri OpenAI GLIDE modelinə dair məqalə mətn üçün təsnifatsız bələdçi yanaşmanın dəyişdirilməsini təklif etdi.
Gələcəkdə dondurulmuş əvvəlcədən şüalanmış mətn kodlayıcılarının və kaskad ayırdetmə mexanizminin istifadəsi mətn istehsalını əhəmiyyətli dərəcədə təkmilləşdirdi (Təsvir). Məlum oldu ki, mətn hissəsini öyrətməyə ehtiyac yoxdur mətndən şəkilə modellər dondurulmuş T5-xxl-dən istifadə şəkil keyfiyyətinin və mətnin başa düşülməsinin əhəmiyyətli dərəcədə yaxşılaşması ilə nəticələndi və daha az təlim resurslarından istifadə edildi.
Müəlliflər a Gizli diffuziya məqalədə göstərildi ki, şəkil komponenti əslində təlim tələb etmir (ən azı tam deyil). Əgər biz vizual dekoder kimi güclü təsvir avtokoderindən (VQ-VAE və ya KL-VAE) istifadə etsək və təsvirin özündən deyil, diffuziya yolu ilə onun gizli məkanından əlavələr yaratmağa cəhd etsək, öyrənmə daha da sürətlə davam edəcək. Bu metodologiya həm də bu yaxınlarda buraxılanların əsasını təşkil edir Stable Diffusion model.
Kandinsky 2.0 AI modeli
Bir neçə əsas təkmilləşdirmə ilə Kandinsky 2.0 təkmilləşdirilmiş Latent Diffusion texnikasına əsaslanır (biz şəkilləri deyil, onların gizli vektorlarını düzəldirik):
- İki çoxdilli mətn kodlayıcısından istifadə etdi və onların yerləşdirilməsini birləşdirdi.
- UNet əlavə edildi (1.2 milyard parametr).
- Nümunə alma prosedurunun dinamik həddi.
Tədqiqatçılar eyni vaxtda iki çoxdilli kodlayıcıdan - XLMR-clip və mT5-small-dan istifadə ediblər. model həqiqətən çoxdilli. Buna görə də model ingilis, rus, fransız və alman dillərindən əlavə monqol, ivrit və fars kimi dilləri də anlaya bilir. Süni intellekt cəmi 101 dil bilir. Niyə eyni vaxtda iki modeldən istifadə edərək mətni kodlaşdırmaq qərara alındı? XLMR-klip şəkilləri gördükdən və müxtəlif dillər üçün yaxın yerləşdirmə təmin etdiyindən və mT5-small mürəkkəb mətnləri başa düşməyə qadir olduğundan, bu modellər fərqli, lakin mühüm xüsusiyyətlərə malikdir. Hər iki modelin yalnız kiçik sayda parametrləri (560M və 146M) olduğundan, ilkin sınaqlarımız tərəfindən nümayiş etdirildiyinə görə, eyni vaxtda iki kodlayıcıdan istifadə etmək qərara alındı.
Aşağıda Kandinsky 2.0 AI modeli tərəfindən təzə yaradılmış şəkillər:
Kandinsky 2.0 model təlimi necə aparıldı?
ML Space platformasında təlim üçün Christofari superkompüterlərindən istifadə olunub. Bunun üçün hər biri 196 GB RAM olan 100 NVIDIA A80 kartı tələb olunurdu. Təlimi başa çatdırmaq üçün 14 gün və ya 65,856 256 GPU-saat tələb olundu. Təhlil 256 × 512 qətnamə ilə beş gün, ardınca 512 × XNUMX qətnamə ilə altı gün, daha sonra ən təmiz məlumat üçün əlavə üç gün davam etdi.
Təlim məlumatları kimi, su nişanları, aşağı ayırdetmə qabiliyyəti və CLIP-xal metrikası ilə ölçülən mətn təsvirinə aşağı uyğunluq üçün əvvəlcədən süzgəcdən keçirilmiş bir çox verilənlər toplusu birləşdirildi.
Çoxdilli nəsil
Kandinsky 2.0 bizə dil mədəniyyətləri arasında linqvistik və vizual dəyişiklikləri qiymətləndirmək üçün ilk şans verən sözlərdən şəkillər yaratmaq üçün ilk çoxdilli modeldir. Eyni sorğunun bir neçə dilə tərcüməsinin nəticələri aşağıda göstərilmişdir. Məsələn, rus dilində “ali təhsilli şəxs” sorğusunun nəsil nəticələrində yalnız ağdərililər görünür, fransızca tərcüməsi “Photo d'une personne diplômée de l'enseignement supérieur” üçün nəticələr isə daha müxtəlifdir. Qeyd etmək istərdim ki, ali təhsilli dərdlilər ancaq rusdilli nəşrdə var.
Nəhəng dil modelləri və planlaşdırılan diffuziya prosesinin müxtəlif üsulları ilə hələ bir ton sınaq olsa da, artıq əminliklə deyə bilərik ki, Kandinsky 2.0 ilk tamamilə çoxdilli yayma modelidir! Üstündə FusionBrain veb saytı və google colab, siz onun rəsmlərinin nümunələrini görə bilərsiniz.
AI haqqında daha çox oxuyun:
Məsuliyyətdən imtina
uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.
Müəllif haqqında
Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.
Ətraflı məqalələrDamir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.