12 июня 2023

30+ лучших моделей трансформеров в ИИ: что это такое и как они работают

Опубликовано: 12 июня 2023 г., 6:52 Обновлено: 12 июня 2023 г., 6:52

Отредактировано и проверено: 12 июня 2023 г., 6:52.

В последние месяцы в ИИ появилось множество моделей Трансформеров, каждая из которых имеет уникальные, а иногда и забавные имена. Однако эти названия могут не давать достаточного представления о том, что на самом деле делают эти модели. Цель этой статьи — предоставить исчерпывающий и понятный список самых популярных моделей трансформеров. Он будет классифицировать эти модели, а также представит важные аспекты и инновации в семействе Transformer. Верхний список будет охватывать модели обучены посредством самостоятельного обучения, такого как BERT или GPT-3, а также модели, проходящие дополнительное обучение с участием человека, такие как InstructGPT модель, используемая ChatGPT.

Советы профессионалов
Это руководство предназначен для предоставления всесторонних знаний и практических навыков в быстрой инженерии для начинающих и продвинутых учащихся.
Есть много курсов доступен для тех, кто хочет узнать больше об искусственном интеллекте и связанных с ним технологиях.
Взгляните на 10+ лучших ускорителей ИИ которые, как ожидается, лидируют на рынке с точки зрения производительности.

Содержание

Что такое трансформеры в ИИ?
Что такое кодеры и декодеры в ИИ?
Что такое уровни внимания в ИИ?
Что такое точно настроенные модели в ИИ?
Почему Трансформеры — будущее ИИ?
3 типа архитектур предварительного обучения
8 типов задач для предварительно обученных моделей
30+ лучших трансформеров в AI
Часто задаваемые вопросы

Что такое трансформеры в ИИ?

Трансформеры — это тип моделей глубокого обучения, которые были представлены в исследовательской работе под названием «Внимание — это все, что вам нужно» исследователями Google в 2017 году. Эта статья получила огромное признание: всего за пять лет ее цитировали более 38,000 XNUMX раз.

Первоначальная архитектура Transformer представляет собой особую форму моделей кодер-декодер, которая приобрела популярность до ее появления. Эти модели основывались преимущественно на LSTM и другие варианты рекуррентных нейронных сетей (RNN), при этом внимание является лишь одним из используемых механизмов. Однако в документе Transformer была предложена революционная идея о том, что внимание может служить единственным механизмом для установления зависимости между вводом и выводом.

Что такое трансформеры в ИИ? — XNUMX кредит

В контексте Transformers ввод состоит из последовательности токенов, которые могут быть словами или подсловами при обработке естественного языка (НЛП). Подслова обычно используются в моделях НЛП для решения проблемы слов, не входящих в словарь. На выходе кодера создается представление фиксированной размерности для каждого токена, а также отдельное вложение для всей последовательности. Декодер принимает выходные данные кодировщика и генерирует последовательность токенов в качестве своих выходных данных.

С момента публикации статьи «Трансформер» популярные модели, такие как БЕРТ и GPT приняли аспекты исходной архитектуры, используя компоненты кодера или декодера. Ключевое сходство между этими моделями заключается в архитектуре слоев, которая включает в себя механизмы самообслуживания и уровни прямой связи. В Transformers каждый входной токен проходит свой собственный путь через слои, сохраняя при этом прямые зависимости с каждым другим токеном во входной последовательности. Эта уникальная функция позволяет параллельно и эффективно вычислять контекстные представления токенов, что невозможно с помощью последовательных моделей, таких как RNN.

Несмотря на то, что эта статья лишь поверхностно описывает архитектуру Transformer, она позволяет заглянуть в ее фундаментальные аспекты. Для более полного понимания мы рекомендуем обратиться к оригинальной исследовательской статье или публикации The Illustrated Transformer.

Что такое кодеры и декодеры в ИИ?

Представьте, что у вас есть две модели, энкодер и декодер. работать вместе как команда. Кодер принимает ввод и превращает его в вектор фиксированной длины. Затем декодер берет этот вектор и преобразует его в выходную последовательность. Эти модели обучаются вместе, чтобы обеспечить максимально точное соответствие выходных данных входным данным.

И кодировщик, и декодер имели несколько уровней. Каждый уровень в кодере имел два подуровня: уровень самоконтроля с несколькими головками и простую сеть с прямой связью. Слой внутреннего внимания помогает каждому токену на входе понять взаимосвязь со всеми другими токенами. Эти подслои также имеют остаточное соединение и нормализацию слоев, чтобы сделать процесс обучения более плавным.

Мультиголовка декодера слой самоконтроля работает немного иначе, чем в энкодере. Он маскирует токены справа от токена, на котором фокусируется. Это гарантирует, что декодер просматривает только те токены, которые предшествуют тому, который он пытается предсказать. Это замаскированное многоголовое внимание помогает декодеру генерировать точные прогнозы. Кроме того, декодер включает в себя еще один подуровень, который представляет собой уровень внимания с несколькими головками для всех выходных данных кодера.

Важно отметить, что эти конкретные детали были изменены в различных вариантах модели Transformer. Такие модели, как BERT и GPT, например, основаны либо на кодировщике, либо на декодере исходной архитектуры.

Что такое уровни внимания в ИИ?

В архитектуре модели, которую мы обсуждали ранее, уровни внимания с несколькими головками являются особыми элементами, которые делают ее мощной. Но что такое внимание? Думайте об этом как о функции, которая сопоставляет вопрос с набором информации и дает результат. Каждый токен во входных данных имеет связанный с ним запрос, ключ и значение. Выходное представление каждого токена вычисляется путем взятия взвешенной суммы значений, где вес каждого значения определяется тем, насколько хорошо оно соответствует запросу.

Преобразователи используют функцию совместимости, называемую скалярным скалярным произведением, для вычисления этих весов. Интересная особенность внимания в Transformers заключается в том, что каждая лексема проходит свой собственный путь вычисления, что позволяет параллельно вычислять все лексемы во входной последовательности. Это просто несколько блоков внимания, которые независимо вычисляют представления для каждого токена. Затем эти представления объединяются для создания окончательного представления токена.

По сравнению с другими типами сетей, такими как рекуррентные и сверточные сети, уровни внимания имеют несколько преимуществ. Они вычислительно эффективны, то есть могут быстро обрабатывать информацию. Они также имеют более высокую связность, что полезно для фиксации долгосрочных отношений в последовательностях.

Что такое точно настроенные модели в ИИ?

Модели фундамента являются мощными моделями, которые обучаются на большом количестве общих данных. Затем их можно адаптировать или настроить для конкретных задач, обучая их на меньшем наборе упражнений. целевые данные. Этот подход, популяризированный Бумага BERT, привело к доминированию моделей на основе Transformer в задачах машинного обучения, связанных с языком.

В случае таких моделей, как BERT, они создают представления входных токенов, но сами по себе не выполняют определенные задачи. Чтобы сделать их полезными, дополнительные нейронные слои добавляются сверху, и модель обучается от начала до конца, процесс, известный как тонкая настройка. Однако с генеративные модели такое как GPT, подход немного другой. GPT — это языковая модель декодера, обученная предсказывать следующее слово в предложении. Тренируясь на огромных объемах веб-данных, GPT может генерировать разумные выходные данные на основе входных запросов или подсказок.

Чтобы GPT более полезно, OpenAI исследователи разработали инструктироватьGPT, который обучен следовать человеческим инструкциям. Это достигается за счет тонкой настройки GPT использование маркированных человеком данных из различных задач. ИнструктироватьGPT способен выполнять широкий спектр задач и используется такими популярными движками, как ChatGPT.

Тонкую настройку можно также использовать для создания вариантов моделей фундамента, оптимизированных для конкретные цели помимо языкового моделирования. Например, есть модели, точно настроенные для задач, связанных с семантикой, таких как классификация текста и поисковый поиск. Кроме того, трансформаторные энкодеры были успешно настроены в многозадачном режиме. рамки обучения для выполнения нескольких семантических задач с использованием одной общей модели.

Сегодня тонкая настройка используется для создания версий базовых моделей, которые могут использоваться большим количеством пользователей. Процесс включает в себя генерацию ответов на ввод подсказки и ранжирование результатов людьми. Этот рейтинг используется для обучения модель вознаграждения, который присваивает баллы каждому выходу. Обучение с подкреплением с обратной связью от человека затем используется для дальнейшего обучения модели.

Почему Трансформеры — будущее ИИ?

Трансформеры, тип мощной модели, впервые были продемонстрированы в области языкового перевода. Однако исследователи быстро поняли, что Transformers можно использовать для различных задач, связанных с языком, обучая их на большом количестве неразмеченного текста, а затем настраивая их на меньшем наборе размеченных данных. Такой подход позволил Трансформерам получить значительные знания о языке.

Архитектура Transformer, первоначально разработанная для языковых задач, также применялась к другим приложениям, таким как генерация изображений, аудио, музыку и даже действия. Это сделало трансформеров ключевым компонентом в области генеративного ИИ, который меняет различные аспекты жизни общества.

Доступность инструментов и фреймворков, таких как PyTorch и TensorFlow сыграл решающую роль в широком внедрении моделей Transformer. Такие компании, как Huggingface, построили свои бизнес вокруг идеи коммерциализации библиотек Transformer с открытым исходным кодом и специализированного оборудования, такого как тензорные ядра Hopper от NVIDIA, еще больше увеличили скорость обучения и логического вывода этих моделей.

Одним из примечательных применений Трансформеров является ChatGPT, чат-бот, выпущенный OpenAI. Он стал невероятно популярным, охватив миллионы пользователей за короткий период. OpenAI также объявила о выпуске GPT-4, более мощная версия, способная достигать человеческого уровня производительности в таких задачах, как медицинские и юридические экзамены.

Влияние Трансформеров на область ИИ и их широкий спектр применения неоспоримы. У них есть изменил путь мы подходим к задачам, связанным с языком, и прокладываем путь к новым достижениям в области генеративного ИИ.

3 типа архитектур предварительного обучения

Архитектура Transformer, первоначально состоящая из кодировщика и декодера, эволюционировала, чтобы включать различные варианты, основанные на конкретных потребностях. Давайте разберем эти варианты простыми словами.

Предварительная подготовка энкодера: эти модели сосредоточены на понимании полных предложений или отрывков. Во время предварительной подготовки кодировщик используется для восстановления замаскированных токенов во входном предложении. Это помогает модели научиться понимать общий контекст. Такие модели полезны для таких задач, как классификация текста, вывод и ответы на вопросы.
Предварительная подготовка декодера: модели декодера обучаются генерировать следующий токен на основе предыдущей последовательности токенов. Они известны как авторегрессивные языковые модели. Слои внутреннего внимания в декодере могут получить доступ только к токенам перед данным токеном в предложении. Эти модели идеально подходят для задач, связанных с генерацией текста.
Преобразователь (энкодер-декодер): этот вариант сочетает в себе компоненты кодировщика и декодера. Слои внутреннего внимания кодировщика могут получить доступ ко всем входным маркерам, тогда как уровни внутреннего внимания декодера могут получить доступ только к маркерам перед данным маркером. Эта архитектура позволяет декодеру использовать представления, полученные кодировщиком. Модели кодер-декодер хорошо подходят для таких задач, как обобщение, перевод или генеративный ответ на вопрос.

Цели предварительной подготовки могут включать шумоподавление или каузальное языковое моделирование. Эти задачи более сложны для моделей кодер-декодер по сравнению с моделями только для кодера или только для декодера. Архитектура Transformer имеет различные вариации в зависимости от направленности модели. Будь то понимание полных предложений, генерация текста или сочетание того и другого для различных задач, Transformers предлагает гибкость в решении различных языковых задач.

8 типов задач для предварительно обученных моделей

При обучении модели нам нужно поставить перед ней задачу или цель, из которой можно извлечь уроки. Существуют различные задачи обработки естественного языка (NLP), которые можно использовать для предварительного обучения моделей. Давайте разберем некоторые из этих задач в простых терминах:

Языковое моделирование (LM): модель предсказывает следующий токен в предложении. Он учится понимать контекст и генерировать связные предложения.
Моделирование каузального языка: модель предсказывает следующий токен в текстовой последовательности, следуя порядку слева направо. Это похоже на модель повествования, которая генерирует предложения по одному слову за раз.
Моделирование языка префиксов: модель отделяет раздел «префикс» от основной последовательности. Он может обрабатывать любой токен в префиксе, а затем авторегрессивно генерирует остальную часть последовательности.
Моделирование маскированного языка (MLM): некоторые токены во входных предложениях маскируются, и модель предсказывает отсутствующие токены на основе окружающего контекста. Оно учит заполнять пробелы.
Моделирование пермутированного языка (PLM): модель предсказывает следующий токен на основе случайной перестановки входной последовательности. Он учится обрабатывать различные порядки токенов.
Шумоподавляющий автоэнкодер (DAE): модель принимает частично искаженный ввод и стремится восстановить исходный неискаженный ввод. Он учится справляться с шумом или отсутствующими частями текста.
Обнаружение замененного токена (RTD): модель определяет, исходит ли токен из исходного текста или из сгенерированной версии. Он учится идентифицировать замененные или измененные токены.
Прогнозирование следующего предложения (NSP): модель учится различать, являются ли два входных предложения непрерывными сегментами из обучающих данных. Он понимает отношения между предложениями.

Эти задания помогают модели изучить структуру и значение языка. Предварительно обучая этим задачам, модели хорошо понимают язык, прежде чем их можно будет настроить для конкретных приложений.

30+ лучших трансформеров в AI

Фамилия	Архитектура предварительной подготовки	Сложность задачи	Применение	Разработанная
АЛЬБЕРТ	кодировщик	МЛМ/ПОШ	То же, что БЕРТ	Google
Альпака	дешифратор	LM	Задачи генерации и классификации текста	Стэнфордский
AlphaFold	кодировщик	Предсказание свертывания белка	Сворачивание белка	Deepmind
Антропный помощник (см. также)	дешифратор	LM	От общего диалога до помощника по коду.	Антропный
БАРТ	Кодер/декодер	DAE	Задания на генерацию текста и понимание текста	Facebook
БЕРТ	кодировщик	МЛМ/ПОШ	Понимание языка и ответы на вопросы	Google
Блендербот 3	дешифратор	LM	Задания на генерацию текста и понимание текста	Facebook
BLOOM	дешифратор	LM	Задания на генерацию текста и понимание текста	Большая наука/Huggingface
ChatGPT	дешифратор	LM	Диалоговые агенты	OpenAI
шиншилла	дешифратор	LM	Задания на генерацию текста и понимание текста	Deepmind
CLIP	кодировщик		Классификация изображений/объектов	OpenAI
CTRL	дешифратор		Управляемая генерация текста	Salesforce
DALL-E	дешифратор	Предсказание титров	Текст к изображению	OpenAI
DALL-E-2	Кодер/декодер	Предсказание титров	Текст к изображению	OpenAI
ДеБЕРТа	дешифратор	MLM	То же, что БЕРТ	Microsoft
Преобразователи решений	дешифратор	Предсказание следующего действия	Общее RL (задачи обучения с подкреплением)	Google/Калифорнийский университет в Беркли/FAIR
DialoGPT	дешифратор	LM	Генерация текста в настройках диалога	Microsoft
ДистилБЕРТ	кодировщик	МЛМ/ПОШ	Понимание языка и ответы на вопросы	Обнимающее лицо
DQ-БАРТ	Кодер/декодер	DAE	Генерация и понимание текста	Amazon
Долли	дешифратор	LM	Задачи генерации и классификации текста	Databricks, Inc.
ЭРНИ	кодировщик	MLM	Смежные задачи, требующие больших знаний	Различные китайские учреждения
Фламинго	дешифратор	Предсказание титров	Текст к изображению	Deepmind
Галактика	дешифратор	LM	Научный контроль качества, математические рассуждения, обобщение, генерация документов, предсказание молекулярных свойств и извлечение сущностей.	Мета
GLIDE	кодировщик	Предсказание титров	Текст к изображению	OpenAI
GPT-3.5	дешифратор	LM	Диалог и общий язык	OpenAI
GPTинструктировать	дешифратор	LM	Наукоемкие диалоги или языковые задания	OpenAI
HTML	Кодер/декодер	DAE	Языковая модель, позволяющая структурировать подсказки HTML	Facebook
Изображение	T5	Предсказание титров	Текст к изображению	Google
ЛАМДА	дешифратор	LM	Общее языковое моделирование	Google
LLaMA	дешифратор	LM	Рассуждения на основе здравого смысла, ответы на вопросы, генерация кода и понимание прочитанного.	Мета
Minerva	дешифратор	LM	Математические рассуждения	Google
Пальма	дешифратор	LM	Понимание языка и генерация	Google
РОБЕРТа	кодировщик	MLM	Понимание языка и ответы на вопросы	Университет Вашингтона/Google
Воробей	дешифратор	LM	Диалоговые агенты и приложения для генерации общего языка, такие как вопросы и ответы	Deepmind
Стабильная диффузия	Кодер/декодер	Предсказание подписи	Текст к изображению	LMU Мюнхен + Stability.ai + Eleuther.ai
Викунья	дешифратор	LM	Диалоговые агенты	Калифорнийский университет в Беркли, CMU, Стэнфорд, Калифорнийский университет в Сан-Диего и MBZUAI

Часто задаваемые вопросы

Трансформеры в ИИ — это тип архитектура глубокого обучения это изменило обработку естественного языка и другие задачи. Они используют механизмы внутреннего внимания, чтобы зафиксировать взаимосвязь между словами в предложении, что позволяет им понимать и генерировать человеческий текст.

Кодировщики и декодеры — это компоненты, обычно используемые в моделях последовательностей. Кодировщики обрабатывают входные данные, такие как текст или изображения, и преобразуют их в сжатое представление, а декодеры генерируют выходные данные на основе закодированного представления, позволяя выполнять такие задачи, как языковой перевод или создание субтитров к изображениям.

Слои внимания — это компоненты, используемые в нейронные сети, особенно в моделях Transformer. Они позволяют модели выборочно фокусироваться на различных частях входной последовательности, присваивая веса каждому элементу в зависимости от его релевантности, что позволяет эффективно фиксировать зависимости и отношения между элементами.

Под тонко настроенными моделями понимаются предварительно обученные модели, которые были дополнительно обучены конкретной задаче или набору данных, чтобы улучшить их производительность и адаптировать их к конкретным требованиям этой задачи. Этот процесс тонкой настройки включает в себя настройку параметров модели для оптимизации ее прогнозов и ее более специализированного выполнения для целевой задачи.

Трансформеры считаются будущим ИИ, потому что они продемонстрировали исключительную производительность в широком диапазоне задач, включая обработку естественного языка, создание изображений и многое другое. Их способность фиксировать долгосрочные зависимости и эффективно обрабатывать последовательные данные делает их легко адаптируемыми и эффективными для различных приложений, прокладывая путь к достижениям в области генеративного ИИ и революционизируя многие аспекты жизни общества.

Наиболее известные модели трансформаторов в области искусственного интеллекта включают BERT (представления двунаправленных кодировщиков от трансформаторов), GPT (генеративный предварительно обученный преобразователь) и T5 (преобразователь преобразования текста в текст). Эти модели достигли замечательных результатов в различных задачах обработки естественного языка и завоевали значительную популярность в исследовательском сообществе ИИ.

Подробнее об ИИ:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов