Новински извештај технологија
Новембар 23, 2022

Сбер АИ је представио Кандински 2.0, први модел текста у слику за генерисање на више од 100 језика

Укратко

Кандински 2.0, први вишејезични модел дифузије, креирали су и обучили истраживачи Сбер АИ уз помоћ истраживача са Института за вештачку интелигенцију користећи комбиновани скуп података од 1 милијарде парова текст-слика из Сбер АИ и СберДевицес

Дифузија све више замењује ГАН-ове и ауторегресивне моделе у бројним задацима обраде дигиталне слике. Ово није изненађујуће јер је дифузију лакше научити, не захтева сложен избор хиперпараметара, мин-мак оптимизацију и не пати од нестабилности учења. И што је најважније, модели дифузије показују врхунске резултате на скоро свим генеративним задацима — генерисање слике текстом, генерисање звука, видео, па чак и 3D.

Сбер АИ је представио Кандински 2.0, први модел текста у слику за генерисање на више од 100 језика
Слика коју је створио Кандински АИ

Нажалост, већина рада на пољу претварања текста у нешто фокусира се само на енглески и кинески. Да исправи ову неправду, Сбер АИ одлучио да створи вишејезични модел дифузије текста у слику Кандински 2.0, који разуме упите на више од 100 језика. ХуггингФаце већ нуди Кандински 2.0. Истраживачи из СберАИ и СберДевицес су сарађивао са стручњацима из Института за вештачку интелигенцију на овом пројекту.

Шта је дифузија?

У чланку из 2015 Дубоко учење без надзора коришћењем неравнотежне термодинамике, модели дифузије су прво описани као чин мешања супстанце што доводи до дифузије, која изједначава дистрибуцију. Као што наслов чланка имплицира, они су приступили објашњењу дифузионих модела кроз оквир термодинамике.

У случају слика, такав процес би могао да личи, на пример, на постепено уклањање Гаусовог шума са слике.

Рад Модели дифузије пијан ГАНс он Имаге Синтхесис, објављен 2021. године, био је први који је показао супериорност дифузионих модела над ГАНС-ом. Аутори су осмислили и приступ контролисању прве генерације (кондиционирање), који су назвали вођење класификатора. Овај метод креира објекте који одговарају предвиђеној класи користећи градијенте из другог класификатора (на пример, пси). Преко механизма Адаптиве Гроуп Норм, који подразумева предвиђање коефицијената нормализације, врши се и сама контрола.

Овај чланак се може посматрати као прекретница у области генеративне вештачке интелигенције, која је многе навела да се окрену проучавању дифузије. Нови чланци о текст-у-видео, тект-то-3Д, слика инпаинтинг, аудио генерација, дифузија за суперрезолуција, па чак и генерација покрета је почела да се појављује сваких неколико недеља.

Дифузија текста у слику

Као што смо раније споменули, смањење шума и елиминација шума су типично главне компоненте процеса дифузије у контексту модалитета слике, тако да се УНет и његове многе варијације често користе као основна архитектура.

Дифузија текста у слику
Дифузија текста у слику

Неопходно је да се овај текст на неки начин узме у обзир током генерације да би се на основу њега створила слика. Аутори књиге OpenAI чланак о моделу ГЛИДЕ предложио је измену приступа вођења текста без класификатора.

Употреба замрзнутих претходно озрачених текстуалних енкодера и механизма за побољшање каскадне резолуције у будућности значајно је побољшала производњу текста (Слика). Испоставило се да нема потребе да се обучава текстуални део модели текста у слику јер је коришћење замрзнутог Т5-ккл резултирало знатно побољшаним квалитетом слике и разумевањем текста и користило се много мање ресурса за обуку.

Аутори а Латентна дифузија чланак је показао да компонента слике заправо не захтева обуку (бар не у потпуности). Учење ће се одвијати још брже ако користимо моћан аутокодер слике (ВК-ВАЕ или КЛ-ВАЕ) као визуелни декодер и покушамо да генеришемо уградње из његовог латентног простора дифузијом, а не самом сликом. Ова методологија је такође основа недавно објављене Stable Diffusion модел.

Кандински 2.0 АИ модел

Уз неколико кључних побољшања, Кандински 2.0 је заснован на побољшаној техници латентне дифузије (ми не правимо слике, већ њихове латентне векторе):

  • Користио је два вишејезична кодера текста и спојио њихове уградње.
  • Додат УНет (1.2 милијарде параметара).
  • Динамички праг поступка узорковања.
Кандински 2.0 АИ модел
Кандински 2.0 АИ модел

Истраживачи су истовремено користили два вишејезична кодера — КСЛМР-цлип и мТ5-смалл — како би направили модел заиста вишејезичан. Стога, поред енглеског, руског, француског и немачког, модел може да разуме и језике као што су монголски, хебрејски и фарси. АИ зна укупно 101 језик. Зашто је одлучено да се текст кодира користећи два модела истовремено? Пошто је КСЛМР-цлип видео слике и пружа блиске уградње за различите језике, а мТ5-смалл је способан да разуме сложене текстове, ови модели имају различите, али кључне карактеристике. Пошто оба модела имају само мали број параметара (560М и 146М), што су показали наши прелиминарни тестови, одлучено је да се користе два енкодера истовремено.

Свеже генерисане слике Кандинског 2.0 АИ модела испод:

Како је обављена обука модела Кандински 2.0?

За обуку на платформи МЛ Спаце коришћени су суперкомпјутери Цхристофари. Било је потребно 196 НВИДИА А100 картица, свака са 80 ГБ РАМ-а. Било је потребно 14 дана, или 65,856 ГПУ-сати, да се заврши обука. Анализа је трајала пет дана при резолуцији 256×256, након чега је уследило шест дана при резолуцији 512×512, а затим додатна три дана на најчистијим подацима.

Као подаци за обуку, комбиновани су многи скупови података који су претходно филтрирани за водене жигове, ниску резолуцију и ниско придржавање описа текста мерено метриком ЦЛИП-скора.

Вишејезична генерација

Кандински 2.0 је први вишејезични модел за креирање слика од речи, који нам даје прву прилику да проценимо језичке и визуелне промене у различитим језичким културама. Исходи превођења истог упита на неколико језика су приказани у наставку. На пример, само белци се појављују у резултатима генерације за руски упит „особа са високим образовањем“, док су резултати за француски превод „Пхото д'уне персонне дипломее де л'енсеигнемент супериеур“ разноврснији. Желим да истакнем да су жалосни људи са високим образовањем присутни само у издању на руском језику.

Вишејезична генерација
Промпт: разбојник (1. руски, 2. енглески, 3. хинди)
Вишејезична генерација
Промпт: особа са високим образовањем (1. руски, 2. француски, 3. кинески)
Вишејезична генерација
Упута: национално јело (1. руски, 2. јапански, 3. хинди)

Иако је још увек планирано мноштво покушаја са огромним језичким моделима и различитим методама процеса дифузије, већ сада можемо са сигурношћу тврдити да је Кандински 2.0 први потпуно вишејезични модел ширења! На ФусионБраин вебсите Гоогле Цолаб, можете видети примере њених цртежа.

Прочитајте више о АИ:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

više чланака
Дамир Иалалов
Дамир Иалалов

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

Hot Stories
Придружите се нашем билтену.
Најновије вести

Стиже дан изрицања пресуде: Судбина ЦЗ-а виси у равнотежи док амерички суд разматра изјашњење Министарства правде

Цхангпенг Зхао се данас суочава са изрицањем казне на америчком суду у Сијетлу.

Знате више

Оснивачи новчаника Самоураи оптужени за омогућавање 2 милијарде долара у Даркнет пословима

Хапшење оснивача новчаника Самоураи представља значајан корак уназад за индустрију, наглашавајући упорне ...

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
Члан законодавног савета Хонг Конга Ву Јиезхуанг сигнализира грађанску тужбу против ЈПЕКС крипто размене
Posao Новински извештај технологија
Члан законодавног савета Хонг Конга Ву Јиезхуанг сигнализира грађанску тужбу против ЈПЕКС крипто размене
Може 2, 2024
АлтЛаиер улази у другу фазу своје иницијативе за улагање, уводи реАЛТ токен
tržišta Новински извештај технологија
АлтЛаиер улази у другу фазу своје иницијативе за улагање, уводи реАЛТ токен
Може 2, 2024
БНБ ланац објављује извештај за 1. квартал 2024., наглашава смањење од 55.8% у губитку вредности, док БСЦ ТВЛ расте за 70.8%
tržišta Новински извештај технологија
БНБ ланац објављује извештај за 1. квартал 2024., наглашава смањење од 55.8% у губитку вредности, док БСЦ ТВЛ расте за 70.8%
Може 2, 2024
Навер и Какао Каиа: Нова азијска блокчејн моћна кућа спремна да поремети глобална крипто тржишта
Posao софтвер Приче и критике технологија
Навер и Какао Каиа: Нова азијска блокчејн моћна кућа спремна да поремети глобална крипто тржишта
Може 2, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.