AI Wiki Технологии
12 июня 2023

30+ лучших моделей трансформеров в ИИ: что это такое и как они работают

В последние месяцы в ИИ появилось множество моделей Трансформеров, каждая из которых имеет уникальные, а иногда и забавные имена. Однако эти названия могут не давать достаточного представления о том, что на самом деле делают эти модели. Цель этой статьи — предоставить исчерпывающий и понятный список самых популярных моделей трансформеров. Он будет классифицировать эти модели, а также представит важные аспекты и инновации в семействе Transformer. Верхний список будет охватывать модели обучены посредством самостоятельного обучения, такого как BERT или GPT-3, а также модели, проходящие дополнительное обучение с участием человека, такие как InstructGPT модель, используемая ChatGPT.

Кредит: Metaverse Post (mpost.ио)
Советы профессионалов
Это руководство предназначен для предоставления всесторонних знаний и практических навыков в быстрой инженерии для начинающих и продвинутых учащихся.
Есть много курсов доступен для тех, кто хочет узнать больше об искусственном интеллекте и связанных с ним технологиях.
Взгляните на 10+ лучших ускорителей ИИ которые, как ожидается, лидируют на рынке с точки зрения производительности.

Что такое трансформеры в ИИ?

Трансформеры — это тип моделей глубокого обучения, которые были представлены в исследовательской работе под названием «Внимание — это все, что вам нужно» исследователями Google в 2017 году. Эта статья получила огромное признание: всего за пять лет ее цитировали более 38,000 XNUMX раз.

Первоначальная архитектура Transformer представляет собой особую форму моделей кодер-декодер, которая приобрела популярность до ее появления. Эти модели основывались преимущественно на LSTM и другие варианты рекуррентных нейронных сетей (RNN), при этом внимание является лишь одним из используемых механизмов. Однако в документе Transformer была предложена революционная идея о том, что внимание может служить единственным механизмом для установления зависимости между вводом и выводом.

Что такое трансформеры в ИИ?
XNUMX кредит

В контексте Transformers ввод состоит из последовательности токенов, которые могут быть словами или подсловами при обработке естественного языка (НЛП). Подслова обычно используются в моделях НЛП для решения проблемы слов, не входящих в словарь. На выходе кодера создается представление фиксированной размерности для каждого токена, а также отдельное вложение для всей последовательности. Декодер принимает выходные данные кодировщика и генерирует последовательность токенов в качестве своих выходных данных.

С момента публикации статьи «Трансформер» популярные модели, такие как БЕРТ и GPT приняли аспекты исходной архитектуры, используя компоненты кодера или декодера. Ключевое сходство между этими моделями заключается в архитектуре слоев, которая включает в себя механизмы самообслуживания и уровни прямой связи. В Transformers каждый входной токен проходит свой собственный путь через слои, сохраняя при этом прямые зависимости с каждым другим токеном во входной последовательности. Эта уникальная функция позволяет параллельно и эффективно вычислять контекстные представления токенов, что невозможно с помощью последовательных моделей, таких как RNN.

Несмотря на то, что эта статья лишь поверхностно описывает архитектуру Transformer, она позволяет заглянуть в ее фундаментальные аспекты. Для более полного понимания мы рекомендуем обратиться к оригинальной исследовательской статье или публикации The Illustrated Transformer.

Что такое кодеры и декодеры в ИИ?

Представьте, что у вас есть две модели, энкодер и декодер. работать вместе как команда. Кодер принимает ввод и превращает его в вектор фиксированной длины. Затем декодер берет этот вектор и преобразует его в выходную последовательность. Эти модели обучаются вместе, чтобы обеспечить максимально точное соответствие выходных данных входным данным.

И кодировщик, и декодер имели несколько уровней. Каждый уровень в кодере имел два подуровня: уровень самоконтроля с несколькими головками и простую сеть с прямой связью. Слой внутреннего внимания помогает каждому токену на входе понять взаимосвязь со всеми другими токенами. Эти подслои также имеют остаточное соединение и нормализацию слоев, чтобы сделать процесс обучения более плавным.

Мультиголовка декодера слой самоконтроля работает немного иначе, чем в энкодере. Он маскирует токены справа от токена, на котором фокусируется. Это гарантирует, что декодер просматривает только те токены, которые предшествуют тому, который он пытается предсказать. Это замаскированное многоголовое внимание помогает декодеру генерировать точные прогнозы. Кроме того, декодер включает в себя еще один подуровень, который представляет собой уровень внимания с несколькими головками для всех выходных данных кодера.

Важно отметить, что эти конкретные детали были изменены в различных вариантах модели Transformer. Такие модели, как BERT и GPT, например, основаны либо на кодировщике, либо на декодере исходной архитектуры.

Что такое уровни внимания в ИИ?

В архитектуре модели, которую мы обсуждали ранее, уровни внимания с несколькими головками являются особыми элементами, которые делают ее мощной. Но что такое внимание? Думайте об этом как о функции, которая сопоставляет вопрос с набором информации и дает результат. Каждый токен во входных данных имеет связанный с ним запрос, ключ и значение. Выходное представление каждого токена вычисляется путем взятия взвешенной суммы значений, где вес каждого значения определяется тем, насколько хорошо оно соответствует запросу.

Преобразователи используют функцию совместимости, называемую скалярным скалярным произведением, для вычисления этих весов. Интересная особенность внимания в Transformers заключается в том, что каждая лексема проходит свой собственный путь вычисления, что позволяет параллельно вычислять все лексемы во входной последовательности. Это просто несколько блоков внимания, которые независимо вычисляют представления для каждого токена. Затем эти представления объединяются для создания окончательного представления токена.

По сравнению с другими типами сетей, такими как рекуррентные и сверточные сети, уровни внимания имеют несколько преимуществ. Они вычислительно эффективны, то есть могут быстро обрабатывать информацию. Они также имеют более высокую связность, что полезно для фиксации долгосрочных отношений в последовательностях.

Что такое точно настроенные модели в ИИ?

Модели фундамента являются мощными моделями, которые обучаются на большом количестве общих данных. Затем их можно адаптировать или настроить для конкретных задач, обучая их на меньшем наборе упражнений. целевые данные. Этот подход, популяризированный Бумага BERT, привело к доминированию моделей на основе Transformer в задачах машинного обучения, связанных с языком.

В случае таких моделей, как BERT, они создают представления входных токенов, но сами по себе не выполняют определенные задачи. Чтобы сделать их полезными, дополнительные нейронные слои добавляются сверху, и модель обучается от начала до конца, процесс, известный как тонкая настройка. Однако с генеративные модели такое как GPT, подход немного другой. GPT — это языковая модель декодера, обученная предсказывать следующее слово в предложении. Тренируясь на огромных объемах веб-данных, GPT может генерировать разумные выходные данные на основе входных запросов или подсказок.

Чтобы GPT более полезно, OpenAI исследователи разработали инструктироватьGPT, который обучен следовать человеческим инструкциям. Это достигается за счет тонкой настройки GPT использование маркированных человеком данных из различных задач. ИнструктироватьGPT способен выполнять широкий спектр задач и используется такими популярными движками, как ChatGPT.

Тонкую настройку можно также использовать для создания вариантов моделей фундамента, оптимизированных для конкретные цели помимо языкового моделирования. Например, есть модели, точно настроенные для задач, связанных с семантикой, таких как классификация текста и поисковый поиск. Кроме того, трансформаторные энкодеры были успешно настроены в многозадачном режиме. рамки обучения для выполнения нескольких семантических задач с использованием одной общей модели.

Сегодня тонкая настройка используется для создания версий базовых моделей, которые могут использоваться большим количеством пользователей. Процесс включает в себя генерацию ответов на ввод подсказки и ранжирование результатов людьми. Этот рейтинг используется для обучения модель вознаграждения, который присваивает баллы каждому выходу. Обучение с подкреплением с обратной связью от человека затем используется для дальнейшего обучения модели.

Почему Трансформеры — будущее ИИ?

Трансформеры, тип мощной модели, впервые были продемонстрированы в области языкового перевода. Однако исследователи быстро поняли, что Transformers можно использовать для различных задач, связанных с языком, обучая их на большом количестве неразмеченного текста, а затем настраивая их на меньшем наборе размеченных данных. Такой подход позволил Трансформерам получить значительные знания о языке.

Архитектура Transformer, первоначально разработанная для языковых задач, также применялась к другим приложениям, таким как генерация изображений, аудио, музыку и даже действия. Это сделало трансформеров ключевым компонентом в области генеративного ИИ, который меняет различные аспекты жизни общества.

Доступность инструментов и фреймворков, таких как PyTorch и TensorFlow сыграл решающую роль в широком внедрении моделей Transformer. Такие компании, как Huggingface, построили свои бизнес вокруг идеи коммерциализации библиотек Transformer с открытым исходным кодом и специализированного оборудования, такого как тензорные ядра Hopper от NVIDIA, еще больше увеличили скорость обучения и логического вывода этих моделей.

Одним из примечательных применений Трансформеров является ChatGPT, чат-бот, выпущенный OpenAI. Он стал невероятно популярным, охватив миллионы пользователей за короткий период. OpenAI также объявила о выпуске GPT-4, более мощная версия, способная достигать человеческого уровня производительности в таких задачах, как медицинские и юридические экзамены.

Влияние Трансформеров на область ИИ и их широкий спектр применения неоспоримы. У них есть изменил путь мы подходим к задачам, связанным с языком, и прокладываем путь к новым достижениям в области генеративного ИИ.

3 типа архитектур предварительного обучения

Архитектура Transformer, первоначально состоящая из кодировщика и декодера, эволюционировала, чтобы включать различные варианты, основанные на конкретных потребностях. Давайте разберем эти варианты простыми словами.

  1. Предварительная подготовка энкодера: эти модели сосредоточены на понимании полных предложений или отрывков. Во время предварительной подготовки кодировщик используется для восстановления замаскированных токенов во входном предложении. Это помогает модели научиться понимать общий контекст. Такие модели полезны для таких задач, как классификация текста, вывод и ответы на вопросы.
  2. Предварительная подготовка декодера: модели декодера обучаются генерировать следующий токен на основе предыдущей последовательности токенов. Они известны как авторегрессивные языковые модели. Слои внутреннего внимания в декодере могут получить доступ только к токенам перед данным токеном в предложении. Эти модели идеально подходят для задач, связанных с генерацией текста.
  3. Преобразователь (энкодер-декодер): этот вариант сочетает в себе компоненты кодировщика и декодера. Слои внутреннего внимания кодировщика могут получить доступ ко всем входным маркерам, тогда как уровни внутреннего внимания декодера могут получить доступ только к маркерам перед данным маркером. Эта архитектура позволяет декодеру использовать представления, полученные кодировщиком. Модели кодер-декодер хорошо подходят для таких задач, как обобщение, перевод или генеративный ответ на вопрос.

Цели предварительной подготовки могут включать шумоподавление или каузальное языковое моделирование. Эти задачи более сложны для моделей кодер-декодер по сравнению с моделями только для кодера или только для декодера. Архитектура Transformer имеет различные вариации в зависимости от направленности модели. Будь то понимание полных предложений, генерация текста или сочетание того и другого для различных задач, Transformers предлагает гибкость в решении различных языковых задач.

8 типов задач для предварительно обученных моделей

При обучении модели нам нужно поставить перед ней задачу или цель, из которой можно извлечь уроки. Существуют различные задачи обработки естественного языка (NLP), которые можно использовать для предварительного обучения моделей. Давайте разберем некоторые из этих задач в простых терминах:

  1. Языковое моделирование (LM): модель предсказывает следующий токен в предложении. Он учится понимать контекст и генерировать связные предложения.
  2. Моделирование каузального языка: модель предсказывает следующий токен в текстовой последовательности, следуя порядку слева направо. Это похоже на модель повествования, которая генерирует предложения по одному слову за раз.
  3. Моделирование языка префиксов: модель отделяет раздел «префикс» от основной последовательности. Он может обрабатывать любой токен в префиксе, а затем авторегрессивно генерирует остальную часть последовательности.
  4. Моделирование маскированного языка (MLM): некоторые токены во входных предложениях маскируются, и модель предсказывает отсутствующие токены на основе окружающего контекста. Оно учит заполнять пробелы.
  5. Моделирование пермутированного языка (PLM): модель предсказывает следующий токен на основе случайной перестановки входной последовательности. Он учится обрабатывать различные порядки токенов.
  6. Шумоподавляющий автоэнкодер (DAE): модель принимает частично искаженный ввод и стремится восстановить исходный неискаженный ввод. Он учится справляться с шумом или отсутствующими частями текста.
  7. Обнаружение замененного токена (RTD): модель определяет, исходит ли токен из исходного текста или из сгенерированной версии. Он учится идентифицировать замененные или измененные токены.
  8. Прогнозирование следующего предложения (NSP): модель учится различать, являются ли два входных предложения непрерывными сегментами из обучающих данных. Он понимает отношения между предложениями.

Эти задания помогают модели изучить структуру и значение языка. Предварительно обучая этим задачам, модели хорошо понимают язык, прежде чем их можно будет настроить для конкретных приложений.

30+ лучших трансформеров в AI

ФамилияАрхитектура предварительной подготовкиСложность задачи ПрименениеРазработанная
АЛЬБЕРТкодировщикМЛМ/ПОШТо же, что БЕРТGoogle
АльпакадешифраторLMЗадачи генерации и классификации текстаСтэнфордский
AlphaFoldкодировщикПредсказание свертывания белкаСворачивание белкаDeepmind
Антропный помощник (см. также)дешифраторLMОт общего диалога до помощника по коду.Антропный
БАРТКодер/декодерDAEЗадания на генерацию текста и понимание текстаFacebook
БЕРТкодировщикМЛМ/ПОШПонимание языка и ответы на вопросыGoogle
Блендербот 3дешифраторLMЗадания на генерацию текста и понимание текстаFacebook
BLOOMдешифраторLMЗадания на генерацию текста и понимание текстаБольшая наука/Huggingface
ChatGPTдешифраторLMДиалоговые агентыOpenAI
шиншилладешифраторLMЗадания на генерацию текста и понимание текстаDeepmind
CLIPкодировщикКлассификация изображений/объектовOpenAI
CTRLдешифраторУправляемая генерация текстаSalesforce
DALL-EдешифраторПредсказание титровТекст к изображениюOpenAI
DALL-E-2 Кодер/декодерПредсказание титровТекст к изображениюOpenAI
ДеБЕРТадешифраторMLMТо же, что БЕРТMicrosoft
Преобразователи решенийдешифраторПредсказание следующего действияОбщее RL (задачи обучения с подкреплением)Google/Калифорнийский университет в Беркли/FAIR
DialoGPTдешифраторLMГенерация текста в настройках диалогаMicrosoft
ДистилБЕРТкодировщикМЛМ/ПОШПонимание языка и ответы на вопросыОбнимающее лицо
DQ-БАРТКодер/декодерDAEГенерация и понимание текстаAmazon
ДоллидешифраторLMЗадачи генерации и классификации текстаDatabricks, Inc.
ЭРНИкодировщикMLMСмежные задачи, требующие больших знанийРазличные китайские учреждения
ФламингодешифраторПредсказание титровТекст к изображениюDeepmind
ГалактикадешифраторLMНаучный контроль качества, математические рассуждения, обобщение, генерация документов, предсказание молекулярных свойств и извлечение сущностей.Мета
GLIDEкодировщикПредсказание титровТекст к изображениюOpenAI
GPT-3.5дешифраторLMДиалог и общий языкOpenAI
GPTинструктироватьдешифраторLMНаукоемкие диалоги или языковые заданияOpenAI
HTMLКодер/декодерDAEЯзыковая модель, позволяющая структурировать подсказки HTMLFacebook
ИзображениеT5Предсказание титровТекст к изображениюGoogle
ЛАМДАдешифраторLMОбщее языковое моделированиеGoogle
LLaMAдешифраторLMРассуждения на основе здравого смысла, ответы на вопросы, генерация кода и понимание прочитанного.Мета
MinervaдешифраторLMМатематические рассужденияGoogle
ПальмадешифраторLMПонимание языка и генерацияGoogle
РОБЕРТакодировщикMLMПонимание языка и ответы на вопросыУниверситет Вашингтона/Google
ВоробейдешифраторLMДиалоговые агенты и приложения для генерации общего языка, такие как вопросы и ответыDeepmind
Стабильная диффузияКодер/декодерПредсказание подписиТекст к изображениюLMU Мюнхен + Stability.ai + Eleuther.ai
ВикуньядешифраторLMДиалоговые агентыКалифорнийский университет в Беркли, CMU, Стэнфорд, Калифорнийский университет в Сан-Диего и MBZUAI

Часто задаваемые вопросы

Трансформеры в ИИ — это тип архитектура глубокого обучения это изменило обработку естественного языка и другие задачи. Они используют механизмы внутреннего внимания, чтобы зафиксировать взаимосвязь между словами в предложении, что позволяет им понимать и генерировать человеческий текст.

Кодировщики и декодеры — это компоненты, обычно используемые в моделях последовательностей. Кодировщики обрабатывают входные данные, такие как текст или изображения, и преобразуют их в сжатое представление, а декодеры генерируют выходные данные на основе закодированного представления, позволяя выполнять такие задачи, как языковой перевод или создание субтитров к изображениям.

Слои внимания — это компоненты, используемые в нейронные сети, особенно в моделях Transformer. Они позволяют модели выборочно фокусироваться на различных частях входной последовательности, присваивая веса каждому элементу в зависимости от его релевантности, что позволяет эффективно фиксировать зависимости и отношения между элементами.

Под тонко настроенными моделями понимаются предварительно обученные модели, которые были дополнительно обучены конкретной задаче или набору данных, чтобы улучшить их производительность и адаптировать их к конкретным требованиям этой задачи. Этот процесс тонкой настройки включает в себя настройку параметров модели для оптимизации ее прогнозов и ее более специализированного выполнения для целевой задачи.

Трансформеры считаются будущим ИИ, потому что они продемонстрировали исключительную производительность в широком диапазоне задач, включая обработку естественного языка, создание изображений и многое другое. Их способность фиксировать долгосрочные зависимости и эффективно обрабатывать последовательные данные делает их легко адаптируемыми и эффективными для различных приложений, прокладывая путь к достижениям в области генеративного ИИ и революционизируя многие аспекты жизни общества.

Наиболее известные модели трансформаторов в области искусственного интеллекта включают BERT (представления двунаправленных кодировщиков от трансформаторов), GPT (генеративный предварительно обученный преобразователь) и T5 (преобразователь преобразования текста в текст). Эти модели достигли замечательных результатов в различных задачах обработки естественного языка и завоевали значительную популярность в исследовательском сообществе ИИ.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше

Основателей Samourai Wallet обвиняют в содействии сделкам в даркнете на 2 миллиарда долларов

Задержание основателей Samourai Wallet представляет собой заметную неудачу для отрасли, подчеркивая упорное...

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Сеть BNB опубликовала отчет за первый квартал 1 года, в котором подчеркивается сокращение потерь стоимости на 2024%, в то время как TVL BSC взлетает на 55.8%
Области применения: Новостной репортаж Технологии
Сеть BNB опубликовала отчет за первый квартал 1 года, в котором подчеркивается сокращение потерь стоимости на 2024%, в то время как TVL BSC взлетает на 55.8%
2 мая 2024
Naver и Kaia из Kakao: новый азиатский блокчейн-гигант, готовый разрушить глобальные рынки криптовалют
Бизнес Software Истории и обзоры Технологии
Naver и Kaia из Kakao: новый азиатский блокчейн-гигант, готовый разрушить глобальные рынки криптовалют
2 мая 2024
Aave Labs представляет предложение «Aave 2030», включая запуск протокола Aave V4
Бизнес Новостной репортаж Технологии
Aave Labs представляет предложение «Aave 2030», включая запуск протокола Aave V4
2 мая 2024
Ankr сотрудничает с блокчейн-платформой искусственного интеллекта Talus Network, чтобы разблокировать ликвидность биткойнов для искусственного интеллекта
Бизнес Новостной репортаж Технологии
Ankr сотрудничает с блокчейн-платформой искусственного интеллекта Talus Network, чтобы разблокировать ликвидность биткойнов для искусственного интеллекта
1 мая 2024
CRYPTOMERIA LABS PTE. ООО