30+ найкращих моделей трансформерів у штучному інтелекті: що це таке та як вони працюють
За останні місяці в штучному інтелекті з’явилося багато моделей трансформерів, кожна з яких має унікальні та інколи кумедні назви. Однак ці назви можуть не дати багато розуміння того, що ці моделі насправді роблять. Ця стаття має на меті надати вичерпний і простий список найпопулярніших моделей Transformer. Він класифікує ці моделі, а також представить важливі аспекти та інновації в сімействі Transformer. Верхній список охопить навчені моделі через самоконтрольоване навчання, як BERT або GPT-3, а також моделі, які проходять додаткове навчання з участю людини, наприклад InstructGPT модель, яку використовує ChatGPT.
Про Поради |
---|
Це керівництво призначений для надання комплексних знань і практичних навичок у швидкому проектуванні для початківців та досвідчених учнів. |
Є багато курсів доступний для людей, які хочуть дізнатися більше про ШІ та пов’язані з ним технології. |
Погляньте на 10+ найкращих прискорювачів ШІ які, як очікується, лідирують на ринку з точки зору продуктивності. |
Що таке Трансформери в ШІ?
Трансформери — це тип моделей глибокого навчання, які були представлені в дослідницькій статті під назвою «Увага - це все, що вам потрібно” дослідниками Google у 2017 році. Цей документ отримав величезне визнання, зібравши понад 38,000 XNUMX цитат лише за п’ять років.
Оригінальна архітектура Transformer — це особлива форма моделей кодера-декодера, яка набула популярності до її появи. На ці моделі переважно спиралися LSTM та інші варіації рекурентних нейронних мереж (RNN), причому увага є лише одним із використовуваних механізмів. Однак у статті Transformer була запропонована революційна ідея про те, що увага може служити єдиним механізмом для встановлення залежності між входом і виходом.
У контексті Transformers вхідні дані складаються з послідовності токенів, які можуть бути словами або підсловами в обробці природної мови (НЛП). Підслова зазвичай використовуються в моделях НЛП для вирішення проблеми слів, які не входять у словниковий запас. На виході кодера створюється представлення з фіксованою розмірністю для кожного токена, а також окреме вбудовування для всієї послідовності. Декодер приймає вихідні дані кодувальника та генерує послідовність маркерів як свій вихід.
З моменту виходу паперу Transformer популярні моделі, як БЕРТ та GPT прийняли аспекти оригінальної архітектури, використовуючи компоненти кодера або декодера. Ключова подібність між цими моделями полягає в архітектурі рівнів, яка включає механізми самоконтролю та рівні прямого зв’язку. У Transformers кожен вхідний маркер проходить власний шлях через шари, зберігаючи пряму залежність від кожного іншого маркера у вхідній послідовності. Ця унікальна функція дозволяє паралельно й ефективно обчислювати представлення контекстних токенів, що неможливо здійснити з такими послідовними моделями, як RNN.
Хоча ця стаття лише коснеться поверхні архітектури Transformer, вона дає змогу зазирнути в її основні аспекти. Для більш повного розуміння рекомендуємо звернутися до оригінальної дослідницької статті або публікації The Illustrated Transformer.
Що таке кодери та декодери в ШІ?
Уявіть, що у вас є дві моделі, кодер і декодер, працювати разом як команда. Кодер приймає вхідні дані та перетворює їх на вектор фіксованої довжини. Потім декодер бере цей вектор і перетворює його на вихідну послідовність. Ці моделі навчаються разом, щоб переконатися, що вихідні дані якомога точніше відповідають вхідним.
І кодер, і декодер мали кілька рівнів. Кожен рівень у кодері мав два підрівні: багатоголовий рівень самоуважності та проста мережа прямої подачі. Рівень самоуважності допомагає кожному маркеру у вхідних даних зрозуміти взаємозв’язки з усіма іншими маркерами. Ці підрівні також мають залишкове з’єднання та нормалізацію рівня, щоб полегшити процес навчання.
Багатоголовка декодера шар самоуваги працює дещо інакше, ніж у кодувальнику. Він маскує токени праворуч від токена, на якому фокусується. Це гарантує, що декодер переглядає лише токени, які передують тому, який він намагається передбачити. Ця замаскована багатоголова увага допомагає декодеру створювати точні передбачення. Крім того, декодер включає ще один підрівень, який є багатоголовим рівнем уваги над усіма виходами з кодера.
Важливо відзначити, що ці конкретні деталі були змінені в різних варіантах моделі Transformer. Такі моделі, як BERT і GPT, наприклад, базуються на аспекті кодера або декодера оригінальної архітектури.
Що таке рівні уваги в ШІ?
В архітектурі моделі, яку ми обговорювали раніше, багатоголовні рівні уваги є особливими елементами, які роблять її потужною. Але що саме таке увага? Думайте про це як про функцію, яка відображає запитання в наборі інформації та дає результат. Кожен маркер у вхідних даних має запит, ключ і значення, пов’язані з ним. Вихідне представлення кожного токена обчислюється за допомогою зваженої суми значень, де вага для кожного значення визначається тим, наскільки добре воно відповідає запиту.
Трансформатори використовують функцію сумісності, яка називається масштабований скалярний добуток, для обчислення цих ваг. Цікава річ про увагу в Transformers полягає в тому, що кожен маркер проходить власний шлях обчислення, що дозволяє паралельно обчислювати всі маркери у вхідній послідовності. Це просто кілька блоків уваги, які незалежно обчислюють представлення для кожного токена. Потім ці представлення об’єднуються для створення остаточного представлення токена.
Порівняно з іншими типами мереж, такими як повторювані та згорткові мережірівні уваги мають кілька переваг. Вони є обчислювально ефективними, тобто можуть швидко обробляти інформацію. Вони також мають кращий зв’язок, що корисно для фіксації довгострокових стосунків у послідовності.
Що таке точно налаштовані моделі в ШІ?
Моделі фундаменту це потужні моделі, які навчаються на великій кількості загальних даних. Потім їх можна адаптувати або налаштувати для конкретних завдань, навчивши їх на меншому наборі цільові дані. Цей підхід, популяризований в Папір BERT, призвело до домінування моделей на основі Transformer у завданнях машинного навчання, пов’язаних із мовою.
У випадку таких моделей, як BERT, вони створюють представлення вхідних токенів, але не виконують конкретних завдань самостійно. Зробити їх корисними, додатковими нервові шари додаються зверху, і модель навчається наскрізне, процес, відомий як тонке налаштування. Проте с генеративні моделі як GPT, підхід трохи інший. GPT це модель мови декодера, навчена передбачати наступне слово в реченні. Навчаючись на величезній кількості веб-даних, GPT може генерувати прийнятні результати на основі вхідних запитів або підказок.
Щоб GPT більш корисний, OpenAI дослідники розвивались ІнструктажGPT, який навчений виконувати вказівки людини. Це досягається шляхом тонкого налаштування GPT використовуючи позначені людиною дані з різних завдань. ІнструктуватиGPT здатний виконувати широкий спектр завдань і використовується такими популярними двигунами, як ChatGPT.
Тонка настройка також може бути використана для створення оптимізованих варіантів моделей основи конкретні цілі за межами мовного моделювання. Наприклад, існують моделі, налаштовані для семантичних завдань, таких як класифікація тексту та пошуковий пошук. Крім того, трансформаторні кодери були успішно налаштовані в багатозадачному режимі рамки навчання для виконання кількох семантичних завдань за допомогою однієї спільної моделі.
Сьогодні точне налаштування використовується для створення версій моделей основи, які можуть використовуватися великою кількістю користувачів. Процес передбачає створення відповідей на вхідні дані підказки та надання людям ранжування результатів. Цей рейтинг використовується для навчання a модель винагороди, який присвоює бали кожному виходу. Навчання з підкріпленням із зворотним зв’язком людини потім використовується для подальшого навчання моделі.
Чому Трансформери - це майбутнє ШІ?
Трансформери, тип потужної моделі, вперше були продемонстровані в галузі мовного перекладу. Проте дослідники швидко зрозуміли, що Transformers можна використовувати для різних мовних завдань, навчивши їх на великій кількості тексту без міток, а потім налаштувавши їх на меншому наборі мічених даних. Цей підхід дозволив Transformers отримати значні знання про мову.
Архітектура Transformer, спочатку розроблена для мовних завдань, також була застосована до інших програм, наприклад генерування зображень, аудіо, музика та навіть дії. Це зробило Трансформери ключовим компонентом у сфері Generative AI, який змінює різні аспекти суспільства.
Наявність інструментів і фреймворків, таких як PyTorch та TensorFlow відіграв вирішальну роль у широкому впровадженні моделей Transformer. Такі компанії, як Huggingface, створили свої бізнес навколо ідеї Комерціалізація бібліотек Transformer з відкритим вихідним кодом і спеціалізованого апаратного забезпечення, наприклад Hopper Tensor Cores від NVIDIA, ще більше прискорили навчання та швидкість логічного висновку цих моделей.
Одним із відомих застосувань трансформерів є ChatGPT, чат-бот, випущений компанією OpenAI. Він став неймовірно популярним, охопивши мільйони користувачів за короткий період. OpenAI також оголосив про випуск GPT-4, більш потужна версія, яка здатна досягати продуктивності, подібної до людської, у таких завданнях, як медичні та юридичні іспити.
Вплив Transformers на сферу штучного інтелекту та їх широкий спектр застосування незаперечні. Вони мають перетворив спосіб ми підходимо до завдань, пов’язаних із мовою, і прокладаємо шлях для нових досягнень у генеративному ШІ.
3 типи архітектур попереднього навчання
Архітектура Transformer, яка спочатку складалася з кодувальника та декодера, розвинулася, щоб включити різні варіації на основі конкретних потреб. Давайте розберемо ці варіації простими словами.
- Попереднє навчання кодувальника: Ці моделі зосереджені на розумінні повних речень або уривків. Під час попереднього навчання кодер використовується для реконструкції замаскованих лексем у вхідному реченні. Це допомагає моделі навчитися розуміти загальний контекст. Такі моделі корисні для таких завдань, як класифікація тексту, втягування та витягнення відповідей на запитання.
- Попередня підготовка декодера: моделі декодера навчені генерувати наступний маркер на основі попередньої послідовності маркерів. Вони відомі як авторегресивні моделі мови. Рівні самоконтролю в декодері можуть отримувати доступ лише до токенів, які передують даній лексемі в реченні. Ці моделі ідеально підходять для завдань, пов'язаних з генерацією тексту.
- Трансформатор (Кодер-Декодер) Попередня підготовка: цей варіант поєднує в собі компоненти кодера та декодера. Рівні самоконтролю кодера можуть отримати доступ до всіх вхідних маркерів, тоді як шари самоконтролю декодера можуть отримати доступ лише до маркерів перед даним маркером. Ця архітектура дозволяє декодеру використовувати представлення, отримані кодувальником. Моделі кодера-декодера добре підходять для таких завдань, як узагальнення, переклад або генеративна відповідь на запитання.
Цілі попереднього навчання можуть включати усунення шуму або моделювання причинної мови. Ці цілі є більш складними для моделей кодер-декодер порівняно з моделями лише кодер або лише декодер. Архітектура Transformer має різні варіації залежно від фокусу моделі. Незалежно від того, чи йдеться про розуміння повних речень, створення тексту чи комбінування обох для різних завдань, Transformers пропонують гнучкість у вирішенні різних проблем, пов’язаних із мовою.
8 типів завдань для попередньо підготовлених моделей
Навчаючи модель, ми повинні поставити перед нею завдання чи мету, на яких можна вчитися. Існують різні завдання в обробці природної мови (NLP), які можна використовувати для моделей попереднього навчання. Давайте розберемо деякі з цих завдань простими словами:
- Мовне моделювання (LM): модель передбачає наступну лексему в реченні. Він вчиться розуміти контекст і створювати зв’язні речення.
- Моделювання причинної мови: модель передбачає наступну лексему в текстовій послідовності в порядку зліва направо. Це як модель оповідання, яка генерує речення по одному слову за раз.
- Моделювання префіксної мови: модель відокремлює «префіксну» секцію від основної послідовності. Він може звернути увагу на будь-який маркер у префіксі, а потім автоматично генерує решту послідовності.
- Моделювання замаскованої мови (MLM): деякі лексеми у вхідних реченнях замасковані, і модель передбачає відсутні лексеми на основі навколишнього контексту. Воно вчиться заповнювати прогалини.
- Моделювання перестановленої мови (PLM): модель передбачає наступний маркер на основі випадкової перестановки вхідної послідовності. Він вчиться обробляти різні порядки токенів.
- Автокодер з усуненням шумів (DAE): модель використовує частково пошкоджений вхідний сигнал і прагне відновити оригінальний неспотворений вхідний сигнал. Він вчиться справлятися з шумом або відсутніми частинами тексту.
- Виявлення замінених маркерів (RTD): модель визначає, чи походить маркер з оригінального тексту чи згенерованої версії. Він вчиться розпізнавати замінені або оброблені токени.
- Прогноз наступного речення (NSP): модель вчиться розрізняти, чи є два вхідних речення безперервними сегментами з навчальних даних. Розуміє зв’язок між реченнями.
Ці завдання допомагають моделі вивчити структуру та значення мови. Попередньо тренуючись над цими завданнями, моделі добре розуміють мову перед тим, як налаштувати їх для конкретних програм.
30+ найкращих трансформерів у ШІ
ІМ'Я | Архітектура попередньої підготовки | Завдання | додаток | Розроблено |
---|---|---|---|---|
АЛЬБЕРТ | кодер | MLM/NSP | Те саме, що BERT | |
Альпака | дешифратор | LM | Завдання на формування та класифікацію тексту | Стенфордський |
AlphaFold | кодер | Прогноз згортання білка | Білкове згортання | глибокий розум |
Антропний помічник (див. також) | дешифратор | LM | Від загального діалогу до помічника коду. | Антропний |
БАРТ | Кодер/декодер | DAE | Завдання на формування тексту та розуміння тексту | |
БЕРТ | кодер | MLM/NSP | Розуміння мови та відповіді на запитання | |
BlenderBot 3 | дешифратор | LM | Завдання на формування тексту та розуміння тексту | |
BLOOM | дешифратор | LM | Завдання на формування тексту та розуміння тексту | Велика наука/Huggingface |
ChatGPT | дешифратор | LM | Діалогові агенти | OpenAI |
шиншила | дешифратор | LM | Завдання на формування тексту та розуміння тексту | глибокий розум |
CLIP | кодер | Класифікація зображення/об'єкта | OpenAI | |
CTRL | дешифратор | Керована генерація тексту | Salesforce | |
DALL-E | дешифратор | Прогноз підписів | Перетворення тексту на зображення | OpenAI |
DALL-E-2 | Кодер/декодер | Прогноз підписів | Перетворення тексту на зображення | OpenAI |
ДеБЕРТа | дешифратор | MLM | Те саме, що BERT | Microsoft |
Трансформери рішень | дешифратор | Прогноз наступної дії | Загальний RL (закріплюючі навчальні завдання) | Google/UC Berkeley/FAIR |
ДіалоGPT | дешифратор | LM | Генерація тексту в налаштуваннях діалогу | Microsoft |
DistilBERT | кодер | MLM/NSP | Розуміння мови та відповіді на запитання | Обіймає обличчя |
DQ-BART | Кодер/декодер | DAE | Формування та розуміння тексту | Amazon |
Доллі | дешифратор | LM | Завдання на формування та класифікацію тексту | Databricks, Inc |
ЕРНІ | кодер | MLM | Супутні завдання, що містять знання | Різні китайські установи |
Фламінго | дешифратор | Прогноз підписів | Перетворення тексту на зображення | глибокий розум |
Галактика | дешифратор | LM | Наукова перевірка якості, математичне міркування, узагальнення, генерація документів, прогнозування молекулярних властивостей і вилучення сутностей. | Meta |
ГЛИД | кодер | Прогноз підписів | Перетворення тексту на зображення | OpenAI |
GPT-3.5 | дешифратор | LM | Діалог і загальна мова | OpenAI |
GPTІнструктаж | дешифратор | LM | Намомісткі діалоги або мовні завдання | OpenAI |
HTML | Кодер/декодер | DAE | Мовна модель, яка дозволяє структуровані підказки HTML | |
Зображення | T5 | Прогноз підписів | Перетворення тексту на зображення | |
ЛАМДА | дешифратор | LM | Загальне моделювання мови | |
LLaMA | дешифратор | LM | Розумне міркування, відповіді на запитання, створення коду та розуміння прочитаного. | Meta |
Мінерва | дешифратор | LM | Математичні міркування | |
пальма | дешифратор | LM | Розуміння мови та покоління | |
РоБЕРТа | кодер | MLM | Розуміння мови та відповіді на запитання | UW/Google |
Воробей | дешифратор | LM | Діалогові агенти та програми для створення загальної мови, такі як Q&A | глибокий розум |
Стабільна дифузія | Кодер/декодер | Прогноз підписів | Перетворення тексту на зображення | LMU Munich + Stability.ai + Eleuther.ai |
Вікуна | дешифратор | LM | Діалогові агенти | UC Berkeley, CMU, Stanford, UC San Diego та MBZUAI |
Питання і відповіді
Трансформери в ШІ є різновидом архітектура глибокого навчання що змінило обробку природної мови та інші завдання. Вони використовують механізми самоуважності, щоб вловлювати зв’язки між словами в реченні, що дозволяє їм розуміти та створювати текст, схожий на людину.
Кодери та декодери — це компоненти, які зазвичай використовуються в моделях послідовності до послідовності. Кодери обробляють вхідні дані, такі як текст або зображення, і перетворюють їх у стиснуте представлення, тоді як декодери генерують вихідні дані на основі закодованого представлення, що дозволяє виконувати такі завдання, як переклад мови або підписи до зображень.
Рівні уваги – це компоненти, які використовуються в нейронні мережі, особливо в моделях Transformer. Вони дозволяють моделі вибірково зосереджуватися на різних частинах вхідної послідовності, призначаючи ваги кожному елементу на основі його релевантності, дозволяючи ефективно фіксувати залежності та зв’язки між елементами.
Тонко налаштовані моделі стосуються попередньо навчених моделей, які пройшли подальше навчання для конкретного завдання або набору даних для покращення їх продуктивності та адаптації до конкретних вимог цього завдання. Цей процес тонкого налаштування передбачає коригування параметрів моделі, щоб оптимізувати її прогнози та зробити її більш спеціалізованою для цільового завдання.
Трансформери вважаються майбутнім штучного інтелекту, оскільки вони продемонстрували виняткову продуктивність у широкому діапазоні завдань, включаючи обробку природної мови, створення зображень тощо. Їхня здатність фіксувати довготривалі залежності та ефективно обробляти послідовні дані робить їх дуже адаптивними та ефективними для різноманітних додатків, прокладаючи шлях для прогресу в генеративному штучному інтелекті та революціонізуючи багато аспектів суспільства.
Найвідоміші моделі трансформаторів у ШІ включають BERT (Bidirectional Encoder Representations from Transformers), GPT (генеративний попередньо навчений трансформатор) і T5 (трансформатор передачі тексту в текст). Ці моделі досягли чудових результатів у різних задачах обробки природної мови та здобули значну популярність у дослідницькому співтоваристві ШІ.
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.