Звіт про новини Технологія
Листопад 23, 2022

Sber AI представила Kandinsky 2.0, першу модель тексту в зображення для генерації більш ніж 100 мовами

Коротко

Kandinsky 2.0, перша багатомовна модель дифузії, була створена та навчена дослідниками Sber AI за допомогою дослідників з Інституту штучного інтелекту з використанням об’єднаного набору даних із 1 мільярда пар текст-зображення від Sber AI та SberDevices.

Дифузія все частіше замінює GAN і авторегресійні моделі в ряді завдань обробки цифрових зображень. Це не дивно, тому що дифузія легша для навчання, не потребує складного підбору гіперпараметрів, мінімально-максимальної оптимізації та не страждає від нестабільності навчання. І що найголовніше, дифузійні моделі демонструють найсучасніші результати майже для всіх генеративних завдань — створення зображення за допомогою тексту, генерування звуку, відео та навіть 3D.

Sber AI представила Kandinsky 2.0, першу модель тексту в зображення для генерації більш ніж 100 мовами
Образ, створений Кандинським А.І

На жаль, більшість робіт у сфері перетворення тексту в щось зосереджено лише на англійській та китайській мовах. Щоб виправити цю несправедливість, Сбер А.І вирішив створити багатомовна модель дифузії тексту в зображення Kandinsky 2.0, яка розуміє запити понад 100 мовами. HuggingFace вже пропонує Kandinsky 2.0. Дослідники з SberAI та SberDevices мають співпрацював з експертами Інституту штучного інтелекту щодо цього проекту.

Що таке дифузія?

У статті 2015 р Глибоке неконтрольоване навчання з використанням нерівноважної термодинаміки, моделі дифузії були вперше описані як акт змішування речовини, що призводить до дифузії, яка вирівнює розподіл. Як випливає з назви статті, вони підійшли до пояснення моделей дифузії в рамках термодинаміки.

У випадку із зображеннями такий процес може нагадувати, наприклад, поступове видалення шуму Гауса із зображення.

Паперові моделі дифузії Бити GANs on Image Synthesis, опублікований у 2021 році, був першим, хто продемонстрував перевагу моделей дифузії над GANS. Автори також розробили підхід контролю першого покоління (кондиціонування), який вони назвали керівництвом класифікатора. Цей метод створює об’єкти, які відповідають призначеному класу, використовуючи градієнти з іншого класифікатора (наприклад, собаки). Через механізм Adaptive Group Norm, який передбачає прогнозування нормалізаційних коефіцієнтів, здійснюється сам контроль.

Цю статтю можна розглядати як поворотний момент у галузі генеративного штучного інтелекту, що змусило багатьох звернутися до вивчення дифузії. Нові статті про текст у відео, перетворення тексту в 3D, зображення розпис, генерація аудіо, дифузія для надроздільна здатність, і навіть генерація руху почала з’являтися кожні кілька тижнів.

Дифузія тексту в зображення

Як ми згадували раніше, шумозаглушення та усунення шуму зазвичай є основними компонентами процесів дифузії в контексті модальностей зображення, тому UNet та його численні варіації часто використовуються як фундаментальна архітектура.

Дифузія тексту в зображення
Дифузія тексту в зображення

Важливо, щоб цей текст певним чином враховувався під час генерації, щоб створити на його основі зображення. Автори OpenAI стаття про модель GLIDE пропонувала модифікувати підхід без класифікаторів для тексту.

Застосування кодувальників замороженого попередньо опроміненого тексту та механізм каскадного покращення роздільної здатності в майбутньому значно покращило створення тексту (Зображення). Виявилося, що немає потреби навчати текстову частину моделі перетворення тексту в зображення оскільки використання замороженого T5-xxl призвело до значного покращення якості зображення та розуміння тексту та використало набагато менше навчальних ресурсів.

Автори a Прихована дифузія Стаття показала, що компонент зображення насправді не потребує навчання (принаймні не повністю). Навчання відбуватиметься ще швидше, якщо ми використовуємо потужний автокодер зображення (VQ-VAE або KL-VAE) як візуальний декодер і намагатимемося генерувати вбудовування з його латентного простору шляхом дифузії, а не самого зображення. Ця методологія також є основою нещодавно випущеної Stable Diffusion модель.

Модель Kandinsky 2.0 AI

З кількома ключовими вдосконаленнями Kandinsky 2.0 базується на вдосконаленій техніці латентної дифузії (ми створюємо не зображення, а їхні приховані вектори):

  • Використано два багатомовні кодувальники тексту та об’єднано їх вбудовування.
  • Додано UNet (1.2 мільярда параметрів).
  • Динамічне порогове визначення процедури вибірки.
Модель Kandinsky 2.0 AI
Модель Kandinsky 2.0 AI

Щоб створити модель дійсно багатомовний. Тому, крім англійської, російської, французької та німецької, модель також може розуміти такі мови, як монгольська, іврит і фарсі. Всього ШІ знає 101 мову. Чому було вирішено кодувати текст двома моделями одночасно? Оскільки XLMR-clip бачив зображення та забезпечує близьке вбудовування для різних мов, а mT5-small здатний розуміти складні тексти, ці моделі мають різні, але важливі функції. Оскільки обидві моделі мають невелику кількість параметрів (560M і 146M), як показали наші попередні тести, було вирішено використовувати два кодери одночасно.

Нижче наведено щойно створені зображення за допомогою моделі Kandinsky 2.0 AI:

Як проходив тренінг моделі Kandinsky 2.0?

Для навчання на платформі ML Space використовувалися суперкомп’ютери Christofari. Для цього знадобилося 196 карт NVIDIA A100, кожна з яких мала 80 ГБ оперативної пам’яті. Для завершення навчання знадобилося 14 днів, або 65,856 256 GPU-годин. Аналіз тривав п’ять днів із роздільною здатністю 256 × 512, потім шість днів із роздільною здатністю 512 × XNUMX, а потім ще три дні з найчистішими даними.

Як навчальні дані було об’єднано багато наборів даних, які були попередньо відфільтровані на водяні знаки, низьку роздільну здатність і низьку прихильність до текстового опису, як виміряно показником CLIP-score.

Багатомовне покоління

Kandinsky 2.0 — це перша багатомовна модель для створення зображень зі слів, що дає нам першу можливість оцінити лінгвістичні та візуальні зміни в різних мовних культурах. Результати перекладу одного запиту кількома мовами наведено нижче. Наприклад, лише білі чоловіки з’являються в результатах генерації для російського запиту «людина з вищою освітою», тоді як результати для французького перекладу «Photo d'une personne diplômée de l'enseignement supérieur» більш різноманітні. Зазначу, що скорботні люди з вищою освітою присутні лише в російськомовному виданні.

Багатомовне покоління
Підказка: грабіжник (1. російська, 2. англійська, 3. хінді)
Багатомовне покоління
Підказка: особа з вищою освітою (1. російська, 2. французька, 3. китайська)
Багатомовне покоління
Підказка: національне блюдо (1. російська, 2. японська, 3. хінді)

Хоча попереду ще маса випробувань із запланованими величезними мовними моделями та різними методами процесу поширення, ми вже можемо з упевненістю стверджувати, що Kandinsky 2.0 є першою повністю багатомовною моделлю поширення! На Веб-сайт FusionBrain та google colab, ви можете побачити приклади її малюнків.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
SEC закриває розслідування Ethereum 2.0, вказуючи на позитивний результат для спільноти Ethereum
Business Звіт про новини Технологія
SEC закриває розслідування Ethereum 2.0, вказуючи на позитивний результат для спільноти Ethereum
19 Червня, 2024.
Sophon запускає Liquidity Farming, виділяючи 10% загальної пропозиції токенів SOPH для винагороди учасників
ринки Звіт про новини Технологія
Sophon запускає Liquidity Farming, виділяючи 10% загальної пропозиції токенів SOPH для винагороди учасників
18 Червня, 2024.
API3 представляє стек Oracle на бітовому рівні для розширеного досвіду розробника
Звіт про новини Технологія
API3 представляє стек Oracle на бітовому рівні для розширеного досвіду розробника
18 Червня, 2024.
Зменшення забруднення? Як колишні енергетичні свині біткойна прагнуть зупинити викид вуглецю ШІ
Думка Business ринки Софтвер Технологія
Зменшення забруднення? Як колишні енергетичні свині біткойна прагнуть зупинити викид вуглецю ШІ
18 Червня, 2024.
CRYPTOMERIA LABS PTE. LTD.