Новембар 23, 2022

Сбер АИ је представио Кандински 2.0, први модел текста у слику за генерисање на више од 100 језика

Објављено: 23. новембра 2022. у 1:23 Ажурирано: 23. новембра 2022. у 1:23

Укратко

Кандински 2.0, први вишејезични модел дифузије, креирали су и обучили истраживачи Сбер АИ уз помоћ истраживача са Института за вештачку интелигенцију користећи комбиновани скуп података од 1 милијарде парова текст-слика из Сбер АИ и СберДевицес

Дифузија све више замењује ГАН-ове и ауторегресивне моделе у бројним задацима обраде дигиталне слике. Ово није изненађујуће јер је дифузију лакше научити, не захтева сложен избор хиперпараметара, мин-мак оптимизацију и не пати од нестабилности учења. И што је најважније, модели дифузије показују врхунске резултате на скоро свим генеративним задацима — генерисање слике текстом, генерисање звука, видео, па чак и 3D.

Сбер АИ је представио Кандински 2.0, први модел текста у слику за генерисање на више од 100 језика — Слика коју је створио Кандински АИ

Нажалост, већина рада на пољу претварања текста у нешто фокусира се само на енглески и кинески. Да исправи ову неправду, Сбер АИ одлучио да створи вишејезични модел дифузије текста у слику Кандински 2.0, који разуме упите на више од 100 језика. ХуггингФаце већ нуди Кандински 2.0. Истраживачи из СберАИ и СберДевицес су сарађивао са стручњацима из Института за вештачку интелигенцију на овом пројекту.

Шта је дифузија?

У чланку из 2015 Дубоко учење без надзора коришћењем неравнотежне термодинамике, модели дифузије су прво описани као чин мешања супстанце што доводи до дифузије, која изједначава дистрибуцију. Као што наслов чланка имплицира, они су приступили објашњењу дифузионих модела кроз оквир термодинамике.

У случају слика, такав процес би могао да личи, на пример, на постепено уклањање Гаусовог шума са слике.

Рад Модели дифузије пијан ГАНс он Имаге Синтхесис, објављен 2021. године, био је први који је показао супериорност дифузионих модела над ГАНС-ом. Аутори су осмислили и приступ контролисању прве генерације (кондиционирање), који су назвали вођење класификатора. Овај метод креира објекте који одговарају предвиђеној класи користећи градијенте из другог класификатора (на пример, пси). Преко механизма Адаптиве Гроуп Норм, који подразумева предвиђање коефицијената нормализације, врши се и сама контрола.

Овај чланак се може посматрати као прекретница у области генеративне вештачке интелигенције, која је многе навела да се окрену проучавању дифузије. Нови чланци о текст-у-видео, тект-то-3Д, слика инпаинтинг, аудио генерација, дифузија за суперрезолуција, па чак и генерација покрета је почела да се појављује сваких неколико недеља.

Дифузија текста у слику

Као што смо раније споменули, смањење шума и елиминација шума су типично главне компоненте процеса дифузије у контексту модалитета слике, тако да се УНет и његове многе варијације често користе као основна архитектура.

Неопходно је да се овај текст на неки начин узме у обзир током генерације да би се на основу њега створила слика. Аутори књиге OpenAI чланак о моделу ГЛИДЕ предложио је измену приступа вођења текста без класификатора.

Употреба замрзнутих претходно озрачених текстуалних енкодера и механизма за побољшање каскадне резолуције у будућности значајно је побољшала производњу текста (Слика). Испоставило се да нема потребе да се обучава текстуални део модели текста у слику јер је коришћење замрзнутог Т5-ккл резултирало знатно побољшаним квалитетом слике и разумевањем текста и користило се много мање ресурса за обуку.

Аутори а Латентна дифузија чланак је показао да компонента слике заправо не захтева обуку (бар не у потпуности). Учење ће се одвијати још брже ако користимо моћан аутокодер слике (ВК-ВАЕ или КЛ-ВАЕ) као визуелни декодер и покушамо да генеришемо уградње из његовог латентног простора дифузијом, а не самом сликом. Ова методологија је такође основа недавно објављене Stable Diffusion модел.

Кандински 2.0 АИ модел

Уз неколико кључних побољшања, Кандински 2.0 је заснован на побољшаној техници латентне дифузије (ми не правимо слике, већ њихове латентне векторе):

Користио је два вишејезична кодера текста и спојио њихове уградње.
Додат УНет (1.2 милијарде параметара).
Динамички праг поступка узорковања.

Истраживачи су истовремено користили два вишејезична кодера — КСЛМР-цлип и мТ5-смалл — како би направили модел заиста вишејезичан. Стога, поред енглеског, руског, француског и немачког, модел може да разуме и језике као што су монголски, хебрејски и фарси. АИ зна укупно 101 језик. Зашто је одлучено да се текст кодира користећи два модела истовремено? Пошто је КСЛМР-цлип видео слике и пружа блиске уградње за различите језике, а мТ5-смалл је способан да разуме сложене текстове, ови модели имају различите, али кључне карактеристике. Пошто оба модела имају само мали број параметара (560М и 146М), што су показали наши прелиминарни тестови, одлучено је да се користе два енкодера истовремено.

Свеже генерисане слике Кандинског 2.0 АИ модела испод:

Како је обављена обука модела Кандински 2.0?

За обуку на платформи МЛ Спаце коришћени су суперкомпјутери Цхристофари. Било је потребно 196 НВИДИА А100 картица, свака са 80 ГБ РАМ-а. Било је потребно 14 дана, или 65,856 ГПУ-сати, да се заврши обука. Анализа је трајала пет дана при резолуцији 256×256, након чега је уследило шест дана при резолуцији 512×512, а затим додатна три дана на најчистијим подацима.

Као подаци за обуку, комбиновани су многи скупови података који су претходно филтрирани за водене жигове, ниску резолуцију и ниско придржавање описа текста мерено метриком ЦЛИП-скора.

Вишејезична генерација

Кандински 2.0 је први вишејезични модел за креирање слика од речи, који нам даје прву прилику да проценимо језичке и визуелне промене у различитим језичким културама. Исходи превођења истог упита на неколико језика су приказани у наставку. На пример, само белци се појављују у резултатима генерације за руски упит „особа са високим образовањем“, док су резултати за француски превод „Пхото д'уне персонне дипломее де л'енсеигнемент супериеур“ разноврснији. Желим да истакнем да су жалосни људи са високим образовањем присутни само у издању на руском језику.

Иако је још увек планирано мноштво покушаја са огромним језичким моделима и различитим методама процеса дифузије, већ сада можемо са сигурношћу тврдити да је Кандински 2.0 први потпуно вишејезични модел ширења! На ФусионБраин вебсите Гоогле Цолаб, можете видети примере њених цртежа.

Прочитајте више о АИ:

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов