Июль 11, 2023

GPT-4Утечка деталей проливает свет на его огромные масштабы и впечатляющую архитектуру.

Опубликовано: 11 июля 2023 г. в 7:19 Обновлено: 11 июля 2023 г. в 7:23

Отредактировано и проверено: 11 июля 2023 г., 7:19.

Коротко

Утечка информации о GPT-4 вызвало волнение среди сообщества ИИ. Обладая параметрами своего предшественника более чем в 10 раз, GPT-3, GPT-4 по оценкам, имеет 1.8 триллиона параметров, распределенных по 120 слоям.

OpenAI внедрила модель смешанных экспертов (MoE), используя 16 экспертов со 111 миллиардами параметров для многослойных персептронов (MLP). Эффективный процесс логического вывода модели использует 280 миллиардов параметров и 560 TFLOP на прямой проход, демонстрируя OpenAIстремление компании максимизировать эффективность и рентабельность. Набор обучающих данных модели включает 13 триллионов токенов с тонкой настройкой от 8 до 32 тысяч.

OpenAI использовал параллелизм в GPT-4 чтобы использовать весь потенциал своих графических процессоров A100, используя 8-поточный тензорный параллелизм и 15-поточный конвейерный параллелизм. Процесс обучения был обширным и ресурсоемким, его затраты варьировались от 32 до 63 миллионов долларов.

GPT-4Стоимость вывода примерно в три раза выше, чем у его предшественника, но он также включает в себя внимание к нескольким запросам, непрерывную пакетную обработку и спекулятивное декодирование. Архитектура вывода работает на кластере из 128 графических процессоров, распределенных по нескольким центрам обработки данных.

Недавняя утечка подробностей вокруг GPT-4 вызвал шок в сообществе искусственного интеллекта. Утечка информации, полученной из нераскрытого источника, дает представление о впечатляющих возможностях и беспрецедентных масштабах этой революционной модели. Мы разберем факты и раскроем ключевые аспекты, которые делают GPT-4 настоящее технологическое чудо.

GPT-4Утечка деталей проливает свет на его огромные масштабы и впечатляющую архитектуру. — Кредит: Metaverse Post (mpost.ио)

Содержание

GPT-4Огромное количество параметров
Модель смешанных экспертов (MoE)
Упрощенный алгоритм маршрутизации MoE
Эффективный вывод
Обширный набор обучающих данных
Уточнение с помощью тонкой настройки от 8K до 32K
Масштабирование с помощью графических процессоров через параллелизм
Стоимость обучения и проблемы использования
Компромиссы в сочетании экспертов
Стоимость вывода
Внимание с несколькими запросами
Непрерывное дозирование
Мультимодальное видение
Спекулятивное декодирование
Архитектура логического вывода
Размер и состав набора данных
Слухи и домыслы
Мнение репортера
Увлечение GPT-4Знания
Универсальность GPT-4

GPT-4Огромное количество параметров

Одним из самых поразительных открытий этой утечки является огромный масштаб GPT-4. Он может похвастаться поразительными размерами, более чем в 10 раз превосходящими параметры своего предшественника. GPT-3. По оценкам, их общее количество составляет примерно 1.8. триллион параметров распределяется по впечатляющим 120 слоям. Это существенное увеличение масштаба, несомненно, способствует GPT-4расширенные возможности и потенциал для новаторских достижений.

Модель смешанных экспертов (MoE)

Чтобы обеспечить разумные затраты при сохранении исключительной производительности, OpenAI внедрили смешанную модель экспертов (МО) в GPT-4. Используя в модели 16 экспертов, каждый из которых содержит около 111 миллиардов параметров многослойных перцептронов (MLP), OpenAI эффективно оптимизированное распределение ресурсов. Примечательно, что во время каждого прямого прохода маршрутизируются только два эксперта, что сводит к минимуму вычислительные требования без ущерба для результатов. Этот инновационный подход демонстрирует OpenAIстремление максимизировать эффективность и экономичность своих моделей.

Очень интересная и подробная утечка GPT-4 архитектуры, с превосходным анализом причин, лежащих в ее основе, и ее последствий – автор @dylan522p :https://t.co/eHE7VlGY5V

Резюме без платного доступа можно найти здесь: https://t.co/rLxw5s9ZDt
— Ян П. Харрис (@jphme) Июль 11, 2023

Упрощенный алгоритм маршрутизации MoE

В то время как модель часто исследует расширенные алгоритмы маршрутизации для выбора экспертов для обработки каждого токена, OpenAIподход в настоящее время GPT-4 Сообщается, что модель более проста. Алгоритм маршрутизации, используемый ИИ, считается относительно простым, но, тем не менее, эффективным. Около 55 миллиардов общих параметров, требующих внимания, способствуют эффективному распределению токенов соответствующим экспертам в рамках модели.

Эффективный вывод

GPT-4Процесс вывода демонстрирует свою эффективность и вычислительное мастерство. Каждый прямой проход, предназначенный для генерации одного токена, использует примерно 280 миллиардов параметров и 560 терафлопс (тера операций с плавающей запятой в секунду). Это резко контрастирует с огромными масштабами GPT-4, с его 1.8 триллионами параметров и 3,700 терафлопсами на прямой проход в чисто плотной модели. Эффективное использование ресурсов подчеркивает OpenAIнацеленность на достижение оптимальной производительности без чрезмерных вычислительных требований.

Обширный набор обучающих данных

GPT-4 был обучен на колоссальном наборе данных, содержащем около 13 триллионов токенов. Важно отметить, что эти токены включают в себя как уникальные токены, так и токены, учитывающие номера эпох. тренировочный процесс включает две эпохи для текстовых данных и четыре эпохи для кодовых данных. OpenAI использовали миллионы строк инструкций по точной настройке данных, полученных из ScaleAI и внутренних данных, для повышения производительности модели.

Предтренировочный этап GPT-4 использовал длину контекста 8 тыс. Впоследствии модель подверглась доработке, в результате чего появилась версия 32к. Этот прогресс основан на этапе предварительного обучения, расширяя возможности модели и адаптируя ее к конкретным задачам.

Масштабирование с помощью графических процессоров через параллелизм

OpenAI использовал силу параллелизма в GPT-4 чтобы использовать весь потенциал своих графических процессоров A100. Они использовали 8-поточный тензорный параллелизм, который максимизирует параллельную обработку, поскольку это предел для NVLink. Кроме того, для дальнейшего повышения производительности был использован 15-поточный конвейерный параллелизм. Хотя, вероятно, использовались конкретные методы, такие как ZeRo Stage 1, точная методология остается нераскрытой.

Стоимость обучения и проблемы использования

Обучение GPT-4 Это была масштабная и ресурсоемкая работа. OpenAI выделено около 25,000 100 графических процессоров A90 в течение периода от 100 до 32 дней, работающих с коэффициентом использования примерно от 36% до 1% MFU (наиболее часто используемый). Тренировочный процесс сопровождался многочисленными сбоями, что требовало частых перезапусков с контрольных точек. Если оценивается в 100 доллар США за час AXNUMX, расходы на обучение один только этот пробег составил бы примерно 63 миллиона долларов.

Компромиссы в сочетании экспертов

Реализация модели смешанных экспертов сопряжена с рядом компромиссов. В случае GPT-4, OpenAI выбрал 16 экспертов вместо большего количества. Это решение отражает баланс между достижением превосходных результатов по потерям и обеспечением универсальности для различных задач. Больше экспертов могут представлять проблемы с точки зрения обобщения и конвергенции задач. OpenAIвыбор для упражнений осторожность в эксперте выбор соответствует их приверженности надежной и надежной работе.

Стоимость вывода

По сравнению со своей предшественницей, моделью Давинчи со 175 миллиардами параметров, GPT-4Стоимость вывода примерно в три раза выше. Это несоответствие можно объяснить несколькими факторами, в том числе более крупными кластерами, необходимыми для поддержки GPT-4 и более низкое использование, достигнутое во время вывода. По оценкам, приблизительная стоимость составляет 0.0049 цента за 1,000 токенов для 128 графических процессоров A100 и 0.0021 цента за 1,000 токенов для 128 графических процессоров H100 при выводе. GPT-4 с 8к. Эти цифры предполагают достойное использование и большие размеры партий, что является решающим фактором для оптимизации затрат.

Внимание с несколькими запросами

OpenAI использует многозапросное внимание (MQA), метод, широко используемый в этой области, в GPT-4 также. Благодаря реализации MQA для модели требуется только одна головка, что значительно уменьшает объем памяти, необходимый для кэша «ключ-значение» (кэш KV). Несмотря на такую оптимизацию, следует отметить, что пакет 32k GPT-4 не может быть размещен на графических процессорах A40 емкостью 100 ГБ, а 8k ограничен максимальным размером пакета.

Непрерывное дозирование

Чтобы найти баланс между задержкой и затратами на вывод, OpenAI включает в себя как переменные размеры партий, так и непрерывное дозирование. GPT-4. Этот адаптивный подход обеспечивает гибкую и эффективную обработку, оптимизируя использование ресурсов и сокращая вычислительные затраты.

GPT-4 наряду с кодировщиком текста представляет отдельный видеокодер, обеспечивающий перекрестное внимание между ними. Эта архитектура, напоминающая Flamingo, добавляет дополнительные параметры к уже впечатляющему числу параметров в 1.8 триллиона. GPT-4. Модель видения подвергается отдельной тонкой настройке с использованием примерно 2 триллионов токенов после этапа предварительного обучения только для текста. Эта способность видения расширяет возможности автономные агенты читать веб-страницы, расшифровывать изображения и интерпретировать видеоконтент — бесценный актив в эпоху мультимедийных данных.

Спекулятивное декодирование

Интересный аспект GPT-4Стратегия вывода заключается в возможном использовании спекулятивного декодирования. Этот подход предполагает использование меньшего и более быстрого модель заранее генерировать прогнозы для нескольких токенов. Эти предсказанные токены затем передаются в более крупную модель «оракула» в виде единого пакета. Если меньше предсказания модели в соответствии с соглашением более крупной модели несколько токенов могут быть декодированы вместе. Однако, если более крупная модель отклоняет токены, предсказанные черновой моделью, остальная часть пакета отбрасывается, и вывод продолжается только с более крупной моделью. Этот подход позволяет эффективно декодировать, потенциально допуская последовательности с более низкой вероятностью. Стоит отметить, что это предположение остается неподтвержденным в настоящее время.

Архитектура логического вывода

GPT-4Процесс вывода работает на кластере из 128 графических процессоров, распределенных по нескольким центрам обработки данных в разных местах. В этой инфраструктуре используется 8-поточный тензорный параллелизм и 16-поточный конвейерный параллелизм для максимизации эффективности вычислений. Каждый узел, состоящий из 8 графических процессоров, содержит около 130 миллиардов параметров. При размере модели 120 слоев, GPT-4 может поместиться в 15 различных узлов, возможно, с меньшим количеством слоев в первом узле из-за необходимости вычисления вложений. Эти архитектурные решения облегчают высокопроизводительный вывод, демонстрируя OpenAIстремление расширить границы вычислительной эффективности.

Размер и состав набора данных

GPT-4 был обучен на впечатляющих 13 триллионах токенов, предоставив ему обширный корпус текста для обучения. Однако не все токены можно учесть с помощью известных наборов данных, используемых во время обучения. Хотя такие наборы данных, как CommonCrawl и RefinedWeb, составляют значительную часть данные обучения, остается часть неучтенных токенов, часто именуемых «секретными» данными.

Слухи и домыслы

Появились предположения относительно происхождения этих нераскрытых данных. Один из слухов предполагает, что он включает в себя контент с популярных платформ, таких как Twitter, Reddit и YouTube, что подчеркивает потенциальное влияние пользовательского контента на формирование GPT-4база знаний. Кроме того, существуют предположения относительно включения таких обширных коллекций, как LibGen, хранилище миллионов книг, и Sci-Hub, платформа, обеспечивающая доступ к многочисленным научным работам. Представление о том, что GPT-4 был обучен на GitHub и также распространен среди энтузиастов искусственного интеллекта.

Мнение репортера

Хотя слухов ходит много, важно относиться к этим слухам с осторожностью. Обучение GPT-4 возможно, им очень помог специальный набор данных, составленный из учебников колледжа. Этот набор данных, охватывающий широкий спектр курсов и предметов, можно было бы кропотливо собрать вручную. Учебники для колледжей предоставляют структурированную и всеобъемлющую базу знаний, которую можно успешно использовать для обучения языковой модели и которую легко преобразовать в текстовые файлы. Включение такого набора данных может создать впечатление, что GPT-4 обладает знаниями в различных областях.

Увлечение GPT-4Знания

Один интригующий аспект GPT-4обучением является его способность демонстрировать знакомство с конкретными книгами и даже вспоминать уникальные идентификаторы с таких платформ, как Project Euler. Исследователи попытались извлечь из заученных отрывков книг GPT-4 чтобы получить представление о ее обучении, что еще больше подогревает интерес к внутренней работе модели. Эти открытия подчеркивают удивительную способность GPT-4 сохранить информацию и подчеркнуть впечатляющие возможности крупномасштабных языковых моделей.

Универсальность GPT-4

Широкий спектр тем и областей, которые GPT-4 может, по-видимому, привлечь внимание к демонстрациям своей универсальности. Будь то ответы на сложные вопросы по информатике или углубление в философские дебаты, GPT-4Обучение на разнообразном наборе данных позволяет ему взаимодействовать с пользователями из разных областей. Эта универсальность обусловлена доступом к огромному количеству текстовых ресурсов, что делает его ценным инструментом для широкого круга пользователей.

Подробнее об ИИ:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов