AI Wiki Технологія
12 Червня, 2023.

30+ найкращих моделей трансформерів у штучному інтелекті: що це таке та як вони працюють

За останні місяці в штучному інтелекті з’явилося багато моделей трансформерів, кожна з яких має унікальні та інколи кумедні назви. Однак ці назви можуть не дати багато розуміння того, що ці моделі насправді роблять. Ця стаття має на меті надати вичерпний і простий список найпопулярніших моделей Transformer. Він класифікує ці моделі, а також представить важливі аспекти та інновації в сімействі Transformer. Верхній список охопить навчені моделі через самоконтрольоване навчання, як BERT або GPT-3, а також моделі, які проходять додаткове навчання з участю людини, наприклад InstructGPT модель, яку використовує ChatGPT.

Кредит: Metaverse Post (mpost.io)
Про Поради
Це керівництво призначений для надання комплексних знань і практичних навичок у швидкому проектуванні для початківців та досвідчених учнів.
Є багато курсів доступний для людей, які хочуть дізнатися більше про ШІ та пов’язані з ним технології.
Погляньте на 10+ найкращих прискорювачів ШІ які, як очікується, лідирують на ринку з точки зору продуктивності.

Що таке Трансформери в ШІ?

Трансформери — це тип моделей глибокого навчання, які були представлені в дослідницькій статті під назвою «Увага - це все, що вам потрібно” дослідниками Google у 2017 році. Цей документ отримав величезне визнання, зібравши понад 38,000 XNUMX цитат лише за п’ять років.

Оригінальна архітектура Transformer — це особлива форма моделей кодера-декодера, яка набула популярності до її появи. На ці моделі переважно спиралися LSTM та інші варіації рекурентних нейронних мереж (RNN), причому увага є лише одним із використовуваних механізмів. Однак у статті Transformer була запропонована революційна ідея про те, що увага може служити єдиним механізмом для встановлення залежності між входом і виходом.

Що таке Трансформери в ШІ?
Авторство: dominodatalab.com

У контексті Transformers вхідні дані складаються з послідовності токенів, які можуть бути словами або підсловами в обробці природної мови (НЛП). Підслова зазвичай використовуються в моделях НЛП для вирішення проблеми слів, які не входять у словниковий запас. На виході кодера створюється представлення з фіксованою розмірністю для кожного токена, а також окреме вбудовування для всієї послідовності. Декодер приймає вихідні дані кодувальника та генерує послідовність маркерів як свій вихід.

З моменту виходу паперу Transformer популярні моделі, як БЕРТ та GPT прийняли аспекти оригінальної архітектури, використовуючи компоненти кодера або декодера. Ключова подібність між цими моделями полягає в архітектурі рівнів, яка включає механізми самоконтролю та рівні прямого зв’язку. У Transformers кожен вхідний маркер проходить власний шлях через шари, зберігаючи пряму залежність від кожного іншого маркера у вхідній послідовності. Ця унікальна функція дозволяє паралельно й ефективно обчислювати представлення контекстних токенів, що неможливо здійснити з такими послідовними моделями, як RNN.

Хоча ця стаття лише коснеться поверхні архітектури Transformer, вона дає змогу зазирнути в її основні аспекти. Для більш повного розуміння рекомендуємо звернутися до оригінальної дослідницької статті або публікації The Illustrated Transformer.

Що таке кодери та декодери в ШІ?

Уявіть, що у вас є дві моделі, кодер і декодер, працювати разом як команда. Кодер приймає вхідні дані та перетворює їх на вектор фіксованої довжини. Потім декодер бере цей вектор і перетворює його на вихідну послідовність. Ці моделі навчаються разом, щоб переконатися, що вихідні дані якомога точніше відповідають вхідним.

І кодер, і декодер мали кілька рівнів. Кожен рівень у кодері мав два підрівні: багатоголовий рівень самоуважності та проста мережа прямої подачі. Рівень самоуважності допомагає кожному маркеру у вхідних даних зрозуміти взаємозв’язки з усіма іншими маркерами. Ці підрівні також мають залишкове з’єднання та нормалізацію рівня, щоб полегшити процес навчання.

Багатоголовка декодера шар самоуваги працює дещо інакше, ніж у кодувальнику. Він маскує токени праворуч від токена, на якому фокусується. Це гарантує, що декодер переглядає лише токени, які передують тому, який він намагається передбачити. Ця замаскована багатоголова увага допомагає декодеру створювати точні передбачення. Крім того, декодер включає ще один підрівень, який є багатоголовим рівнем уваги над усіма виходами з кодера.

Важливо відзначити, що ці конкретні деталі були змінені в різних варіантах моделі Transformer. Такі моделі, як BERT і GPT, наприклад, базуються на аспекті кодера або декодера оригінальної архітектури.

Що таке рівні уваги в ШІ?

В архітектурі моделі, яку ми обговорювали раніше, багатоголовні рівні уваги є особливими елементами, які роблять її потужною. Але що саме таке увага? Думайте про це як про функцію, яка відображає запитання в наборі інформації та дає результат. Кожен маркер у вхідних даних має запит, ключ і значення, пов’язані з ним. Вихідне представлення кожного токена обчислюється за допомогою зваженої суми значень, де вага для кожного значення визначається тим, наскільки добре воно відповідає запиту.

Трансформатори використовують функцію сумісності, яка називається масштабований скалярний добуток, для обчислення цих ваг. Цікава річ про увагу в Transformers полягає в тому, що кожен маркер проходить власний шлях обчислення, що дозволяє паралельно обчислювати всі маркери у вхідній послідовності. Це просто кілька блоків уваги, які незалежно обчислюють представлення для кожного токена. Потім ці представлення об’єднуються для створення остаточного представлення токена.

Порівняно з іншими типами мереж, такими як повторювані та згорткові мережірівні уваги мають кілька переваг. Вони є обчислювально ефективними, тобто можуть швидко обробляти інформацію. Вони також мають кращий зв’язок, що корисно для фіксації довгострокових стосунків у послідовності.

Що таке точно налаштовані моделі в ШІ?

Моделі фундаменту це потужні моделі, які навчаються на великій кількості загальних даних. Потім їх можна адаптувати або налаштувати для конкретних завдань, навчивши їх на меншому наборі цільові дані. Цей підхід, популяризований в Папір BERT, призвело до домінування моделей на основі Transformer у завданнях машинного навчання, пов’язаних із мовою.

У випадку таких моделей, як BERT, вони створюють представлення вхідних токенів, але не виконують конкретних завдань самостійно. Зробити їх корисними, додатковими нервові шари додаються зверху, і модель навчається наскрізне, процес, відомий як тонке налаштування. Проте с генеративні моделі як GPT, підхід трохи інший. GPT це модель мови декодера, навчена передбачати наступне слово в реченні. Навчаючись на величезній кількості веб-даних, GPT може генерувати прийнятні результати на основі вхідних запитів або підказок.

Щоб GPT більш корисний, OpenAI дослідники розвивались ІнструктажGPT, який навчений виконувати вказівки людини. Це досягається шляхом тонкого налаштування GPT використовуючи позначені людиною дані з різних завдань. ІнструктуватиGPT здатний виконувати широкий спектр завдань і використовується такими популярними двигунами, як ChatGPT.

Тонка настройка також може бути використана для створення оптимізованих варіантів моделей основи конкретні цілі за межами мовного моделювання. Наприклад, існують моделі, налаштовані для семантичних завдань, таких як класифікація тексту та пошуковий пошук. Крім того, трансформаторні кодери були успішно налаштовані в багатозадачному режимі рамки навчання для виконання кількох семантичних завдань за допомогою однієї спільної моделі.

Сьогодні точне налаштування використовується для створення версій моделей основи, які можуть використовуватися великою кількістю користувачів. Процес передбачає створення відповідей на вхідні дані підказки та надання людям ранжування результатів. Цей рейтинг використовується для навчання a модель винагороди, який присвоює бали кожному виходу. Навчання з підкріпленням із зворотним зв’язком людини потім використовується для подальшого навчання моделі.

Чому Трансформери - це майбутнє ШІ?

Трансформери, тип потужної моделі, вперше були продемонстровані в галузі мовного перекладу. Проте дослідники швидко зрозуміли, що Transformers можна використовувати для різних мовних завдань, навчивши їх на великій кількості тексту без міток, а потім налаштувавши їх на меншому наборі мічених даних. Цей підхід дозволив Transformers отримати значні знання про мову.

Архітектура Transformer, спочатку розроблена для мовних завдань, також була застосована до інших програм, наприклад генерування зображень, аудіо, музика та навіть дії. Це зробило Трансформери ключовим компонентом у сфері Generative AI, який змінює різні аспекти суспільства.

Наявність інструментів і фреймворків, таких як PyTorch та TensorFlow відіграв вирішальну роль у широкому впровадженні моделей Transformer. Такі компанії, як Huggingface, створили свої бізнес навколо ідеї Комерціалізація бібліотек Transformer з відкритим вихідним кодом і спеціалізованого апаратного забезпечення, наприклад Hopper Tensor Cores від NVIDIA, ще більше прискорили навчання та швидкість логічного висновку цих моделей.

Одним із відомих застосувань трансформерів є ChatGPT, чат-бот, випущений компанією OpenAI. Він став неймовірно популярним, охопивши мільйони користувачів за короткий період. OpenAI також оголосив про випуск GPT-4, більш потужна версія, яка здатна досягати продуктивності, подібної до людської, у таких завданнях, як медичні та юридичні іспити.

Вплив Transformers на сферу штучного інтелекту та їх широкий спектр застосування незаперечні. Вони мають перетворив спосіб ми підходимо до завдань, пов’язаних із мовою, і прокладаємо шлях для нових досягнень у генеративному ШІ.

3 типи архітектур попереднього навчання

Архітектура Transformer, яка спочатку складалася з кодувальника та декодера, розвинулася, щоб включити різні варіації на основі конкретних потреб. Давайте розберемо ці варіації простими словами.

  1. Попереднє навчання кодувальника: Ці моделі зосереджені на розумінні повних речень або уривків. Під час попереднього навчання кодер використовується для реконструкції замаскованих лексем у вхідному реченні. Це допомагає моделі навчитися розуміти загальний контекст. Такі моделі корисні для таких завдань, як класифікація тексту, втягування та витягнення відповідей на запитання.
  2. Попередня підготовка декодера: моделі декодера навчені генерувати наступний маркер на основі попередньої послідовності маркерів. Вони відомі як авторегресивні моделі мови. Рівні самоконтролю в декодері можуть отримувати доступ лише до токенів, які передують даній лексемі в реченні. Ці моделі ідеально підходять для завдань, пов'язаних з генерацією тексту.
  3. Трансформатор (Кодер-Декодер) Попередня підготовка: цей варіант поєднує в собі компоненти кодера та декодера. Рівні самоконтролю кодера можуть отримати доступ до всіх вхідних маркерів, тоді як шари самоконтролю декодера можуть отримати доступ лише до маркерів перед даним маркером. Ця архітектура дозволяє декодеру використовувати представлення, отримані кодувальником. Моделі кодера-декодера добре підходять для таких завдань, як узагальнення, переклад або генеративна відповідь на запитання.

Цілі попереднього навчання можуть включати усунення шуму або моделювання причинної мови. Ці цілі є більш складними для моделей кодер-декодер порівняно з моделями лише кодер або лише декодер. Архітектура Transformer має різні варіації залежно від фокусу моделі. Незалежно від того, чи йдеться про розуміння повних речень, створення тексту чи комбінування обох для різних завдань, Transformers пропонують гнучкість у вирішенні різних проблем, пов’язаних із мовою.

8 типів завдань для попередньо підготовлених моделей

Навчаючи модель, ми повинні поставити перед нею завдання чи мету, на яких можна вчитися. Існують різні завдання в обробці природної мови (NLP), які можна використовувати для моделей попереднього навчання. Давайте розберемо деякі з цих завдань простими словами:

  1. Мовне моделювання (LM): модель передбачає наступну лексему в реченні. Він вчиться розуміти контекст і створювати зв’язні речення.
  2. Моделювання причинної мови: модель передбачає наступну лексему в текстовій послідовності в порядку зліва направо. Це як модель оповідання, яка генерує речення по одному слову за раз.
  3. Моделювання префіксної мови: модель відокремлює «префіксну» секцію від основної послідовності. Він може звернути увагу на будь-який маркер у префіксі, а потім автоматично генерує решту послідовності.
  4. Моделювання замаскованої мови (MLM): деякі лексеми у вхідних реченнях замасковані, і модель передбачає відсутні лексеми на основі навколишнього контексту. Воно вчиться заповнювати прогалини.
  5. Моделювання перестановленої мови (PLM): модель передбачає наступний маркер на основі випадкової перестановки вхідної послідовності. Він вчиться обробляти різні порядки токенів.
  6. Автокодер з усуненням шумів (DAE): модель використовує частково пошкоджений вхідний сигнал і прагне відновити оригінальний неспотворений вхідний сигнал. Він вчиться справлятися з шумом або відсутніми частинами тексту.
  7. Виявлення замінених маркерів (RTD): модель визначає, чи походить маркер з оригінального тексту чи згенерованої версії. Він вчиться розпізнавати замінені або оброблені токени.
  8. Прогноз наступного речення (NSP): модель вчиться розрізняти, чи є два вхідних речення безперервними сегментами з навчальних даних. Розуміє зв’язок між реченнями.

Ці завдання допомагають моделі вивчити структуру та значення мови. Попередньо тренуючись над цими завданнями, моделі добре розуміють мову перед тим, як налаштувати їх для конкретних програм.

30+ найкращих трансформерів у ШІ

ІМ'ЯАрхітектура попередньої підготовкиЗавданнядодатокРозроблено
АЛЬБЕРТкодерMLM/NSPТе саме, що BERTGoogle
АльпакадешифраторLMЗавдання на формування та класифікацію текстуСтенфордський
AlphaFoldкодерПрогноз згортання білкаБілкове згортанняглибокий розум
Антропний помічник (див. також)дешифраторLMВід загального діалогу до помічника коду.Антропний
БАРТКодер/декодерDAEЗавдання на формування тексту та розуміння текстуFacebook
БЕРТкодерMLM/NSPРозуміння мови та відповіді на запитанняGoogle
BlenderBot 3дешифраторLMЗавдання на формування тексту та розуміння текстуFacebook
BLOOMдешифраторLMЗавдання на формування тексту та розуміння текстуВелика наука/Huggingface
ChatGPTдешифраторLMДіалогові агентиOpenAI
шиншиладешифраторLMЗавдання на формування тексту та розуміння текстуглибокий розум
CLIPкодерКласифікація зображення/об'єктаOpenAI
CTRLдешифраторКерована генерація текстуSalesforce
DALL-EдешифраторПрогноз підписівПеретворення тексту на зображенняOpenAI
DALL-E-2Кодер/декодерПрогноз підписівПеретворення тексту на зображенняOpenAI
ДеБЕРТадешифраторMLMТе саме, що BERTMicrosoft
Трансформери рішеньдешифраторПрогноз наступної діїЗагальний RL (закріплюючі навчальні завдання)Google/UC Berkeley/FAIR
ДіалоGPTдешифраторLMГенерація тексту в налаштуваннях діалогуMicrosoft
DistilBERTкодерMLM/NSPРозуміння мови та відповіді на запитанняОбіймає обличчя
DQ-BARTКодер/декодерDAEФормування та розуміння текстуAmazon
ДоллідешифраторLMЗавдання на формування та класифікацію текстуDatabricks, Inc
ЕРНІкодерMLMСупутні завдання, що містять знанняРізні китайські установи
ФламінгодешифраторПрогноз підписівПеретворення тексту на зображенняглибокий розум
ГалактикадешифраторLMНаукова перевірка якості, математичне міркування, узагальнення, генерація документів, прогнозування молекулярних властивостей і вилучення сутностей.Meta
ГЛИДкодерПрогноз підписівПеретворення тексту на зображенняOpenAI
GPT-3.5дешифраторLMДіалог і загальна моваOpenAI
GPTІнструктаждешифраторLMНамомісткі діалоги або мовні завданняOpenAI
HTMLКодер/декодерDAEМовна модель, яка дозволяє структуровані підказки HTMLFacebook
ЗображенняT5Прогноз підписівПеретворення тексту на зображенняGoogle
ЛАМДАдешифраторLMЗагальне моделювання мовиGoogle
LLaMAдешифраторLMРозумне міркування, відповіді на запитання, створення коду та розуміння прочитаного.Meta
МінервадешифраторLMМатематичні міркуванняGoogle
пальмадешифраторLMРозуміння мови та поколінняGoogle
РоБЕРТакодерMLMРозуміння мови та відповіді на запитанняUW/Google
ВоробейдешифраторLMДіалогові агенти та програми для створення загальної мови, такі як Q&Aглибокий розум
Стабільна дифузіяКодер/декодерПрогноз підписівПеретворення тексту на зображенняLMU Munich + Stability.ai + Eleuther.ai
ВікунадешифраторLMДіалогові агентиUC Berkeley, CMU, Stanford, UC San Diego та MBZUAI

Питання і відповіді

Трансформери в ШІ є різновидом архітектура глибокого навчання що змінило обробку природної мови та інші завдання. Вони використовують механізми самоуважності, щоб вловлювати зв’язки між словами в реченні, що дозволяє їм розуміти та створювати текст, схожий на людину.

Кодери та декодери — це компоненти, які зазвичай використовуються в моделях послідовності до послідовності. Кодери обробляють вхідні дані, такі як текст або зображення, і перетворюють їх у стиснуте представлення, тоді як декодери генерують вихідні дані на основі закодованого представлення, що дозволяє виконувати такі завдання, як переклад мови або підписи до зображень.

Рівні уваги – це компоненти, які використовуються в нейронні мережі, особливо в моделях Transformer. Вони дозволяють моделі вибірково зосереджуватися на різних частинах вхідної послідовності, призначаючи ваги кожному елементу на основі його релевантності, дозволяючи ефективно фіксувати залежності та зв’язки між елементами.

Тонко налаштовані моделі стосуються попередньо навчених моделей, які пройшли подальше навчання для конкретного завдання або набору даних для покращення їх продуктивності та адаптації до конкретних вимог цього завдання. Цей процес тонкого налаштування передбачає коригування параметрів моделі, щоб оптимізувати її прогнози та зробити її більш спеціалізованою для цільового завдання.

Трансформери вважаються майбутнім штучного інтелекту, оскільки вони продемонстрували виняткову продуктивність у широкому діапазоні завдань, включаючи обробку природної мови, створення зображень тощо. Їхня здатність фіксувати довготривалі залежності та ефективно обробляти послідовні дані робить їх дуже адаптивними та ефективними для різноманітних додатків, прокладаючи шлях для прогресу в генеративному штучному інтелекті та революціонізуючи багато аспектів суспільства.

Найвідоміші моделі трансформаторів у ШІ включають BERT (Bidirectional Encoder Representations from Transformers), GPT (генеративний попередньо навчений трансформатор) і T5 (трансформатор передачі тексту в текст). Ці моделі досягли чудових результатів у різних задачах обробки природної мови та здобули значну популярність у дослідницькому співтоваристві ШІ.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Nexo розпочинає «полювання», щоб винагородити користувачів 12 мільйонами доларів у токенах NEXO за взаємодію з її екосистемою
ринки Звіт про новини Технологія
Nexo розпочинає «полювання», щоб винагородити користувачів 12 мільйонами доларів у токенах NEXO за взаємодію з її екосистемою
Травень 8, 2024
Біржа Revolut X від Revolut залучає криптовалютних трейдерів із нульовою комісією та розширеною аналітикою
ринки Софтвер Розповіді та огляди Технологія
Біржа Revolut X від Revolut залучає криптовалютних трейдерів із нульовою комісією та розширеною аналітикою
Травень 8, 2024
Lisk офіційно переходить на Ethereum Layer 2 і представляє Core v4.0.6
Звіт про новини Технологія
Lisk офіційно переходить на Ethereum Layer 2 і представляє Core v4.0.6
Травень 8, 2024
Нові меми-монети травня 2024 року: 7 варіантів для шанувальників криптовалюти
Digest ринки Технологія
Нові меми-монети травня 2024 року: 7 варіантів для шанувальників криптовалюти
Травень 8, 2024
CRYPTOMERIA LABS PTE. LTD.