Новини Технологии
Ноември 23, 2022

Sber AI представи Kandinsky 2.0, първият модел текст към изображение за генериране на повече от 100 езика

Накратко

Kandinsky 2.0, първият многоезичен дифузионен модел, е създаден и обучен от изследователи на Sber AI с помощта на изследователи от AI Institute of Artificial Intelligence, използвайки комбинирания набор от данни от 1 милиард двойки текст-изображение от Sber AI и SberDevices

Дифузията все повече заменя GAN и авторегресивните модели в редица задачи за обработка на цифрови изображения. Това не е изненадващо, тъй като дифузията е по-лесна за научаване, не изисква сложна селекция от хиперпараметри, минимално-максимална оптимизация и не страда от нестабилност на обучението. И най-важното, дифузионните модели демонстрират най-съвременни резултати при почти всички генеративни задачи - генериране на изображение чрез текст, генериране на звук, видео и дори 3D.

Sber AI представи Kandinsky 2.0, първият модел текст към изображение за генериране на повече от 100 езика
Изображението, създадено от Кандински AI

За съжаление по-голямата част от работата в областта на текст към нещо се фокусира само върху английски и китайски. За да коригира тази несправедливост, Sber AI реши да създаде многоезичен модел за разпространение на текст към изображение Kandinsky 2.0, който разбира заявки на повече от 100 езика. HuggingFace вече предлага Кандински 2.0. Изследователи от SberAI и SberDevices имат сътрудничил с експерти от Института за изкуствен интелект по този проект.

Какво е дифузия?

В статията от 2015 г Дълбоко неконтролирано обучение с помощта на неравновесна термодинамика, моделите на дифузия са описани за първи път като акт на смесване на вещество, което води до дифузия, която изравнява разпределението. Както подсказва заглавието на статията, те подходиха към обяснението на моделите на дифузия през рамката на термодинамиката.

В случай на изображения, такъв процес може да наподобява, например, постепенно премахване на шума на Гаус от изображението.

Хартиените дифузионни модели Разбийте GANs on Image Synthesis, публикуван през 2021 г., беше първият, който показа превъзходството на дифузионните модели над GANS. Авторите също така създадоха подхода за контрол от първо поколение (кондициониране), който те нарекоха ръководство на класификатора. Този метод създава обекти, които отговарят на предвидения клас, използвайки градиенти от различен класификатор (например кучета). Чрез механизма Adaptive Group Norm, който включва прогнозиране на коефициентите за нормализиране, се осъществява и самият контрол.

Тази статия може да се разглежда като повратна точка в областта на генеративния AI, карайки мнозина да се обърнат към изследването на дифузията. Нови статии за текст към видео, текст към 3D, изображение рисуване, аудио генериране, дифузия за супер разделителна способност, и дори генерирането на движение започна да се появява на всеки няколко седмици.

Дифузия от текст към изображение

Както споменахме по-рано, намаляването на шума и елиминирането на шума обикновено са основните компоненти на дифузионните процеси в контекста на модалностите на изображението, така че UNet и многото му вариации често се използват като основна архитектура.

Дифузия от текст към изображение
Дифузия от текст към изображение

От съществено значение е този текст да бъде взет под внимание по някакъв начин при генерирането, за да се създаде образ въз основа на него. Авторите на OpenAI статия за модела GLIDE предложи модифициране на подхода за насочване без класификатор за текст.

Използването на замразени предварително облъчени текстови енкодери и механизмът за подобряване на каскадната разделителна способност в бъдеще значително подобри производството на текст (Изображение). Оказа се, че няма нужда да се обучава текстовата част на модели текст към изображение тъй като използването на замразения T5-xxl доведе до значително подобрено качество на изображението и разбирането на текста и използва много по-малко ресурси за обучение.

Авторите на a Латентна дифузия статия показа, че компонентът на картината всъщност не изисква обучение (поне не напълно). Обучението ще продължи още по-бързо, ако използваме мощен автокодер на изображението (VQ-VAE или KL-VAE) като визуален декодер и се опитаме да генерираме вграждания от неговото латентно пространство чрез дифузия, а не от самото изображение. Тази методология също е в основата на наскоро пуснатите Stable Diffusion модел.

Kandinsky 2.0 AI модел

С няколко ключови подобрения, Kandinsky 2.0 се основава на подобрена техника за латентна дифузия (ние не правим изображения, а по-скоро техните латентни вектори):

  • Използва два многоезични текстови енкодера и свързва техните вграждания.
  • Добавен UNet (1.2 милиарда параметри).
  • Процедура за вземане на проби Динамичен праг.
Kandinsky 2.0 AI модел
Kandinsky 2.0 AI модел

Изследователите са използвали два многоезични енкодера едновременно - XLMR-clip и mT5-small - за да направят модел наистина многоезичен. Следователно, в допълнение към английски, руски, френски и немски, моделът може да разбира и езици като монголски, иврит и фарси. AI знае общо 101 езика. Защо беше решено да се кодира текст с помощта на два модела едновременно? Тъй като XLMR-clip е виждал снимки и осигурява близки вграждания за различни езици, а mT5-small е способен да разбира сложни текстове, тези модели имат различни, но важни функции. Тъй като и двата модела имат само малък брой параметри (560M и 146M), както беше показано от нашите предварителни тестове, беше решено да се използват два енкодера едновременно.

Прясно генерирани изображения от Kandinsky 2.0 AI модел по-долу:

Как беше проведено обучението по модел Кандински 2.0?

За обучението на платформата ML Space бяха използвани суперкомпютри Christofari. Необходими са 196 карти NVIDIA A100, всяка с 80 GB RAM. Завършването на обучението отне 14 дни, или 65,856 256 GPU-часа. Анализът отне пет дни при разделителна способност 256 × 512, последван от шест дни при разделителна способност 512 × XNUMX, след което допълнителни три дни за най-чистите данни.

Като данни за обучение бяха комбинирани много набори от данни, които са били предварително филтрирани за водни знаци, ниска разделителна способност и слабо придържане към текстовото описание, измерено чрез показателя CLIP-score.

Многоезично поколение

Kandinsky 2.0 е първият многоезичен модел за създаване на изображения от думи, който ни дава първата възможност да оценим езиковите и визуални промени в езиковите култури. Резултатите от превода на една и съща заявка на няколко езика са показани по-долу. Например, само бели мъже се появяват в резултатите за генериране на руската заявка „лице с висше образование“, докато резултатите за френския превод „Photo d'une personne diplômée de l'enseignement supérieur“ са по-разнообразни. Искам да отбележа, че скръбните хора с висше образование присъстват само в рускоезичното издание.

Многоезично поколение
Подкана: разбойникът (1. руски, 2. английски, 3. хинди)
Многоезично поколение
Подсказка: лице с висше образование (1. руски, 2. френски, 3. китайски)
Многоезично поколение
Подсказка: национално ястие (1. руски, 2. японски, 3. хинди)

Въпреки че все още има много изпитания с огромни езикови модели и различни методи на планирания процес на разпространение, вече можем да кажем с увереност, че Kandinsky 2.0 е първият напълно многоезичен модел на разпространение! На Уебсайт на FusionBrain намлява google colab, можете да видите примери за нейни рисунки.

Прочетете повече за AI:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още

Основателите на портфейла Samourai са обвинени в улесняване на $2 милиарда в Darknet сделки

Заплахата от страна на основателите на портфейла Samourai Wallet представлява забележителна неуспех за индустрията, подчертавайки постоянните...

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Член на Законодателния съвет на Хонконг Wu Jiezhuang сигнализира граждански иск срещу JPEX Crypto Exchange
Бизнес Новини Технологии
Член на Законодателния съвет на Хонконг Wu Jiezhuang сигнализира граждански иск срещу JPEX Crypto Exchange
Май 2, 2024
AltLayer навлиза във втората фаза на своята инициатива за залагане, представя reALT Token
пазари Новини Технологии
AltLayer навлиза във втората фаза на своята инициатива за залагане, представя reALT Token
Май 2, 2024
Веригата BNB публикува отчет за първото тримесечие на 1 г., който подчертава 2024% намаление на загубата на стойност, докато BSC TVL скочи със 55.8%
пазари Новини Технологии
Веригата BNB публикува отчет за първото тримесечие на 1 г., който подчертава 2024% намаление на загубата на стойност, докато BSC TVL скочи със 55.8%
Май 2, 2024
Kaia на Naver и Kakao: Новата азиатска блокчейн мощност, готова да разруши глобалните крипто пазари
Бизнес Софтуер Истории и рецензии Технологии
Kaia на Naver и Kakao: Новата азиатска блокчейн мощност, готова да разруши глобалните крипто пазари
Май 2, 2024
CRYPTOMERIA LABS PTE. LTD.