23 ноября 2022

Сбер ИИ представил Kandinsky 2.0, первую модель преобразования текста в изображение для генерации более чем на 100 языках

Опубликовано: 23 ноября 2022 г. в 1:23 Обновлено: 23 ноября 2022 г. в 1:23

Коротко

Кандинский 2.0, первая многоязычная диффузионная модель, была создана и обучена исследователями ИИ Сбера при содействии исследователей из Института искусственного интеллекта ИИ с использованием объединенного набора данных из 1 миллиарда пар текст-изображение от Сбер ИИ и SberDevices.

Диффузия все чаще заменяет GAN и авторегрессионные модели в ряде задач цифровой обработки изображений. Это неудивительно, потому что диффузия проще в освоении, не требует сложного подбора гиперпараметров, оптимизации min-max и не страдает нестабильностью обучения. И самое главное, диффузионные модели демонстрируют самые современные результаты практически на всех генеративных задачах — генерация изображения по тексту, генерация звука, видео и даже 3D.

Сбер ИИ представил Kandinsky 2.0, первую модель преобразования текста в изображение для генерации более чем на 100 языках — Образ, созданный Кандинским А.И.

К сожалению, большая часть работы в области преобразования текста в нечто сосредоточена только на английском и китайском языках. Чтобы исправить эту несправедливость, Сбер ИИ решил создать многоязычная модель преобразования текста в изображение Кандинский 2.0, которая понимает запросы на более чем 100 языках. ОбниматьЛицо уже предлагает Кандинский 2.0. Исследователи из СберАИ и СберДевайс сотрудничало с экспертами Института искусственного интеллекта AI по этому проекту.

Что такое диффузия?

В статье 2015 г. Глубокое обучение без учителя с использованием неравновесной термодинамики, модели диффузии были впервые описаны как акт смешивания вещества, приводящий к диффузии, которая выравнивает распределение. Как следует из названия статьи, они подошли к объяснению моделей диффузии в рамках термодинамики.

В случае изображений такой процесс может напоминать, например, постепенное удаление гауссова шума с изображения.

Бумага Модели диффузии Бить GANs on Image Synthesis, опубликованный в 2021 году, был первым, кто продемонстрировал превосходство диффузионных моделей над GANS. Авторы также разработали подход к управлению первого поколения (обусловливание), который они назвали руководством классификатора. Этот метод создает объекты, соответствующие заданному классу, используя градиенты из другого классификатора (например, собак). Через механизм Adaptive Group Norm, предполагающий прогнозирование нормировочных коэффициентов, осуществляется собственно контроль.

Эту статью можно рассматривать как поворотный момент в области генеративного ИИ, заставивший многих обратиться к изучению диффузии. Новые статьи о текст в видео, текст в 3D, изображение рисование, генерация звука, диффузия для сверхразрешение, и даже генерация движения начала появляться каждые несколько недель.

Распространение текста в изображение

Как мы упоминали ранее, шумоподавление и устранение шума обычно являются основными компонентами процессов распространения в контексте модальностей изображения, поэтому UNet и его многочисленные варианты часто используются в качестве фундаментальной архитектуры.

Важно, чтобы этот текст каким-то образом учитывался при генерации, чтобы создать изображение на его основе. Авторы OpenAI В статье о модели GLIDE предлагалось изменить метод наведения без классификатора для текста.

Использование замороженных кодировщиков текста с предварительным облучением и механизма улучшения каскадного разрешения в будущем значительно улучшило производство текста (Изображение). Оказалось, что обучать текстовую часть не нужно. модели преобразования текста в изображение поскольку использование замороженного T5-xxl привело к значительному улучшению качества изображения и понимания текста и потребовало гораздо меньшего количества учебных ресурсов.

Авторы Скрытая диффузия Статья продемонстрировала, что графическая составляющая на самом деле не требует обучения (по крайней мере, не полностью). Обучение будет проходить еще быстрее, если мы будем использовать мощный автокодировщик изображений (VQ-VAE или KL-VAE) в качестве визуального декодера и попытаемся генерировать вложения из его скрытого пространства путем диффузии, а не из самого изображения. Эта методология также является основой недавно выпущенного Stable Diffusion модель.

Кандинский 2.0 AI модель

С несколькими ключевыми улучшениями Кандинский 2.0 основан на усовершенствованной технике скрытой диффузии (мы создаем не изображения, а их скрытые векторы):

Использовали два многоязычных текстовых кодировщика и объединили их вложения.
Добавлен UNet (1.2 миллиарда параметров).
Динамическая пороговая установка процедуры выборки.

Исследователи одновременно использовали два многоязычных кодировщика — XLMR-clip и mT5-small — для того, чтобы модель действительно многоязычный. Таким образом, помимо английского, русского, французского и немецкого, модель также может понимать такие языки, как монгольский, иврит и фарси. Всего ИИ знает 101 язык. Почему было принято решение кодировать текст двумя моделями одновременно? Поскольку XLMR-clip видел картинки и обеспечивает близкое встраивание для разных языков, а mT5-small способен понимать сложные тексты, эти модели имеют разные, но важные особенности. Поскольку обе модели имеют небольшое количество параметров (560M и 146M), как показали наши предварительные тесты, было принято решение использовать два энкодера одновременно.

Свежесгенерированные изображения с помощью модели искусственного интеллекта Кандинского 2.0 ниже:

Как проходило обучение модели Кандинского 2.0?

Для обучения на платформе ML Space использовались суперкомпьютеры Christofari. Для этого потребовалось 196 карт NVIDIA A100, каждая с 80 ГБ ОЗУ. На обучение ушло 14 дней или 65,856 256 GPU-часов. Анализ занял пять дней при разрешении 256×512, затем шесть дней при разрешении 512×XNUMX, а затем еще три дня на самых чистых данных.

В качестве обучающих данных было объединено множество наборов данных, которые были предварительно отфильтрованы по водяным знакам, низкому разрешению и низкому соответствию текстовому описанию, измеряемому метрикой CLIP-score.

Многоязычное поколение

Kandinsky 2.0 — первая многоязычная модель создания изображений из слов, дающая нам первую возможность оценить лингвистические и визуальные изменения в языковых культурах. Результаты перевода одного и того же запроса на несколько языков показаны ниже. Например, в результатах генерации по русскому запросу «человек с высшим образованием» фигурируют только белые мужчины, тогда как результаты по французскому переводу «Photo d'une personne diplômée de l'enseignement superieur» более разнообразны. Хочу отметить, что скорбящие люди с высшим образованием присутствуют только в русскоязычном издании.

Несмотря на то, что запланировано еще множество испытаний с огромными языковыми моделями и различными методами процесса распространения, мы уже можем с уверенностью заявить, что Kandinsky 2.0 — первая полностью многоязычная модель распространения! На Веб-сайт FusionBrain и Google Colab, вы можете увидеть примеры ее рисунков.

Подробнее об ИИ:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов