Липень 11, 2023

GPT-4Оприлюднені деталі проливають світло на його величезні масштаби та вражаючу архітектуру

Опубліковано: 11 липня 2023 о 7:19 Оновлено: 11 липня 2023 о 7:23

Відредаговано та перевірено: 11 липня 2023 р. о 7:19

Коротко

Витік інформації про GPT-4 викликав хвилювання серед спільноти ШІ. З більш ніж у 10 разів більшими параметрами свого попередника, GPT-3, GPT-4 за оцінками, має 1.8 трильйона параметрів, розподілених між 120 шарами.

OpenAI реалізував модель суміші експертів (MoE), використовуючи 16 експертів із 111 мільярдами параметрів для багатошарових перцептронів (MLP). Ефективний процес висновку моделі використовує 280 мільярдів параметрів і 560 TFLOPs на один прохід вперед, демонструючи OpenAIвідданість компанії максимізації ефективності та економічності. Навчальний набір даних моделі включає 13 трильйонів токенів з тонким налаштуванням від 8 до 32 тисяч.

OpenAI використаний паралелізм в GPT-4 щоб максимально використати потенціал графічних процесорів A100, використовуючи 8-сторонній тензорний паралелізм і 15-сторонній конвеєрний паралелізм. Навчальний процес був тривалим і ресурсомістким, витрати становили від 32 до 63 мільйонів доларів США.

GPT-4Вартість висновків приблизно в три рази вища, ніж у його попередника, але він також включає багатозапитову увагу, безперервне пакетування та спекулятивне декодування. Архітектура висновку працює на кластері із 128 GPU, розподілених між кількома центрами обробки даних.

Недавній витік подробиць навколо GPT-4 сколихнув спільноту ШІ. Витік інформації, отриманої з нерозголошеного джерела, дає можливість уявити вражаючі можливості та безпрецедентний масштаб цієї новаторської моделі. Ми розберемо факти та розкриємо ключові аспекти, які роблять це GPT-4 справжнє диво техніки.

GPT-4Оприлюднені деталі проливають світло на його величезні масштаби та вражаючу архітектуру — Кредит: Metaverse Post (mpost.io)

Зміст

GPT-4Величезна кількість параметрів
Суміш експертної моделі (MoE)
Спрощений алгоритм маршрутизації MoE
Ефективний висновок
Розширений набір навчальних даних
Удосконалення за допомогою тонкого налаштування від 8K до 32K
Масштабування за допомогою графічних процесорів через паралелізм
Вартість навчання та проблеми з використанням
Компроміси в суміші експертів
Вартість висновку
Багатозапитова увага
Безперервне дозування
Vision Multi-Modal
Спекулятивне декодування
Архітектура висновку
Розмір і склад набору даних
Чутки та припущення
Думка репортера
Захоплення с GPT-4's Knowledge
Універсальність GPT-4

GPT-4Величезна кількість параметрів

Одним із найяскравіших викриттів витоку є сама величина GPT-4. Він може похвалитися вражаючими розмірами, більш ніж у 10 разів більшими за параметри свого попередника, GPT-3. За оцінками, він має приголомшливу загальну суму приблизно 1.8 трильйон параметрів розподілені між вражаючими 120 шарами. Це значне збільшення масштабу, безсумнівно, сприяє GPT-4розширені можливості і потенціал для новаторських досягнень.

Суміш експертної моделі (MoE)

Щоб забезпечити розумні витрати при збереженні виняткової продуктивності, OpenAI реалізовано змішану модель експертів (MoE). GPT-4. Використовуючи 16 експертів у моделі, кожен з яких складається з приблизно 111 мільярдів параметрів для багатошарових персептронів (MLP), OpenAI ефективно оптимізований розподіл ресурсів. Примітно, що під час кожного проходу вперед направляються лише два експерта, що мінімізує обчислювальні вимоги без шкоди для результатів. Цей інноваційний підхід демонструє OpenAIвідданість компанії максимізації ефективності та економічності своїх моделей.

Дуже цікавий і детальний витік GPT-4 архітектури, з чудовим аналізом міркувань, що стоять за цим, і його наслідків – автор @dylan522p :https://t.co/eHE7VlGY5V

Підсумок без платного доступу можна знайти тут: https://t.co/rLxw5s9ZDt
— Ян П. Гарріс (@jphme) Липень 11, 2023

Спрощений алгоритм маршрутизації MoE

Хоча модель часто досліджує передові алгоритми маршрутизації для вибору експертів для обробки кожного токена, OpenAIросійський підхід у теч GPT-4 модель, як повідомляється, більш проста. Алгоритм маршрутизації, який використовує AI, вважається відносно простим, але тим не менш ефективним. Приблизно 55 мільярдів спільних параметрів для уваги сприяють ефективному розподілу токенів між відповідними експертами в рамках моделі.

Ефективний висновок

GPT-4Процес висновків демонструє свою ефективність і обчислювальну майстерність. Кожен прямий прохід, присвячений генерації одного токена, використовує приблизно 280 мільярдів параметрів і 560 TFLOP (тера операцій з плаваючою комою в секунду). Це різко контрастує з величезним масштабом GPT-4, з його 1.8 трильйонами параметрів і 3,700 TFLOPs на прямий прохід у чисто щільній моделі. Основні моменти ефективного використання ресурсів OpenAIвідданість досягненню оптимальної продуктивності без надмірних обчислювальних вимог.

Розширений набір навчальних даних

GPT-4 пройшов навчання на колосальному наборі даних, що містить приблизно 13 трильйонів токенів. Важливо зазначити, що ці токени включають як унікальні токени, так і токени, що враховують номери епох. The тренувальний процес включає дві епохи для текстових даних і чотири епохи для кодових даних. OpenAI використовувала мільйони рядків даних для точного налаштування інструкцій, отриманих від ScaleAI та внутрішньо, щоб удосконалити продуктивність моделі.

Фаза попередньої підготовки GPT-4 використано довжину контексту 8k. Згодом модель піддалася доопрацюванню, в результаті чого вийшла версія 32k. Цей прогрес базується на етапі попереднього навчання, розширюючи можливості моделі та пристосовуючи її до конкретних завдань.

Масштабування за допомогою графічних процесорів через паралелізм

OpenAI використав силу паралелізму в GPT-4 щоб максимально використати потенціал графічних процесорів A100. Вони застосували 8-сторонній тензорний паралелізм, який максимізує паралельну обробку, оскільки це обмеження для NVLink. Крім того, для подальшого підвищення продуктивності використовувався 15-канальний паралельний конвеєр. Хоча певні методи, такі як ZeRo Stage 1, ймовірно, використовувалися, точна методологія залишається нерозкритою.

Вартість навчання та проблеми з використанням

Навчання GPT-4 було великою та ресурсомісткою роботою. OpenAI виділив приблизно 25,000 100 графічних процесорів A90 протягом періоду від 100 до 32 днів, які працюють із коефіцієнтом використання приблизно від 36% до 1% MFU (найчастіше використовується). Тренувальний процес зазнавав численних збоїв, що вимагало частих перезапусків з контрольних точок. Якщо оцінити в 100 долар США за AXNUMX годину, витрати на навчання лише для цього пробігу становитиме приблизно 63 мільйони доларів.

Компроміси в суміші експертів

Реалізація змішаної моделі експертів передбачає кілька компромісів. У випадку GPT-4, OpenAI обрав 16 експертів замість більшої кількості. Це рішення відображає баланс між досягненням чудових результатів втрати та забезпеченням узагальненості для різних завдань. Більше експертів можуть представляти проблеми з точки зору узагальнення та конвергенції завдань. OpenAIвибір фізичних вправ обережність в експерт вибір узгоджується з їх прагненням до надійної та надійної роботи.

Вартість висновку

У порівнянні зі своєю попередницею, моделлю Давінчі зі 175 мільярдами параметрів, GPT-4Вартість висновків приблизно втричі вища. Цю розбіжність можна пояснити декількома факторами, включаючи більші кластери, необхідні для підтримки GPT-4 і нижче використання, досягнуте під час висновку. Оцінки вказують на приблизну вартість $0.0049 центів за 1,000 токенів для 128 графічних процесорів A100 і $0.0021 центів за 1,000 жетонів для 128 графічних процесорів H100. GPT-4 з 8 тис. Ці цифри передбачають гідне використання та великі розміри партій, важливі міркування для оптимізації витрат.

Багатозапитова увага

OpenAI використовує багатозапитову увагу (MQA), техніку, яка широко використовується в цій галузі GPT-4 так само. Завдяки реалізації MQA модель потребує лише однієї головки, що значно зменшує обсяг пам’яті, необхідний для кешу ключ-значення (кеш KV). Незважаючи на таку оптимізацію, слід зазначити, що партія 32к GPT-4 не можна розмістити на графічних процесорах A40 на 100 ГБ, а 8 Кб обмежено максимальним розміром пакету.

Безперервне дозування

Щоб знайти баланс між затримкою та вартістю висновків, OpenAI включає в себе як змінні розміри партій, так і безперервне дозування GPT-4. Цей адаптивний підхід забезпечує гнучку та ефективну обробку, оптимізуючи використання ресурсів і зменшуючи витрати на обчислення.

GPT-4 вводить окремий кодер зору поряд із кодувальником тексту, що включає перехресну увагу між ними. Ця архітектура, що нагадує Flamingo, додає додаткові параметри до вже вражаючих 1.8 трильйонів параметрів. GPT-4. Модель бачення піддається окремому тонкому налаштуванню з використанням приблизно 2 трильйонів токенів після фази попереднього навчання лише тексту. Ця здатність бачення надає сили автономні агенти для читання веб-сторінок, транскрибування зображень та інтерпретації відеоконтенту — безцінний актив у епоху мультимедійних даних.

Спекулятивне декодування

Цікавий аспект GPT-4Стратегією висновку є можливе використання спекулятивного декодування. Цей підхід передбачає використання меншого, швидшого модель щоб заздалегідь створити прогнози для кількох токенів. Ці передбачувані токени потім подаються в більшу модель «оракула» як одна партія. Якщо менший прогнози моделі відповідно до угоди більшої моделі, кілька токенів можна декодувати разом. Однак, якщо більша модель відхиляє токени, передбачені чорновою моделлю, решта пакету відкидається, і висновок продовжується виключно з більшою моделлю. Цей підхід забезпечує ефективне декодування, потенційно приймаючи послідовності з меншою ймовірністю. Варто зазначити, що наразі ці припущення залишаються неперевіреними.

Архітектура висновку

GPT-4Процес висновку працює на кластері із 128 графічних процесорів, розподілених між кількома центрами обробки даних у різних місцях. Ця інфраструктура використовує 8-сторонній тензорний паралелізм і 16-сторонній конвеєрний паралелізм для максимізації обчислювальної ефективності. Кожен вузол, що складається з 8 GPU, містить приблизно 130 мільярдів параметрів. З розміром моделі 120 шарів, GPT-4 може поміститися в межах 15 різних вузлів, можливо, з меншою кількістю шарів у першому вузлі через необхідність обчислення вбудовування. Ці архітектурні варіанти сприяють високопродуктивним висновкам, демонструючи OpenAIпрагнення розширювати межі обчислювальної ефективності.

Розмір і склад набору даних

GPT-4 було навчено на вражаючих 13 трильйонах токенів, що забезпечило його обширним корпусом тексту для навчання. Однак не всі маркери можна врахувати за допомогою відомих наборів даних, які використовуються під час навчання. Хоча такі набори даних, як CommonCrawl і RefinedWeb, вносять значну частину дані навчання, залишається частина токенів, які не враховані, і їх часто називають «секретними» даними.

Чутки та припущення

Виникли припущення щодо походження цих нерозкритих даних. Одні чутки припускають, що він включає вміст із популярних платформ, таких як Twitter, Reddit і YouTube, підкреслюючи потенційний вплив контенту, створеного користувачами, на формування GPT-4база знань. Крім того, існують припущення щодо включення великих колекцій, таких як LibGen, сховище мільйонів книг, і Sci-Hub, платформа, що надає доступ до численних наукових праць. Поняття що GPT-4 був навчений повністю використовувати GitHub, також поширювався серед ентузіастів ШІ.

Думка репортера

Хоча існує багато чуток, важливо підходити до них обережно. Навчання GPT-4 може отримати велику користь від спеціального набору даних, складеного з підручників коледжу. Цей набір даних, який охоплює широкий спектр курсів і предметів, міг бути ретельно зібраний вручну. Підручники коледжу надають структуровану та повну базу знань, яку можна успішно використовувати для навчання моделі мови та легко конвертувати у текстові файли. Включення такого набору даних може створити враження, що GPT-4 має знання в різних галузях.

Захоплення с GPT-4's Knowledge

Один інтригуючий аспект GPT-4Навчання користувача полягає в його здатності демонструвати знайомство з конкретними книгами та навіть згадувати унікальні ідентифікатори з таких платформ, як Project Euler. Дослідники намагалися витягти з них завчені частини книг GPT-4 щоб отримати уявлення про її навчання, ще більше підживлюючи цікавість до внутрішньої роботи моделі. Ці відкриття підкреслюють дивовижну здатність GPT-4 зберегти інформацію та підкреслити вражаючі можливості великомасштабних мовних моделей.

Універсальність GPT-4

Широкий спектр тем і галузей, які GPT-4 може, здавалося б, займатися демонстраціями своєї універсальності. Будь то відповіді на складні запитання з інформатики чи заглиблення у філософські дебати, GPT-4Навчання користувача на різноманітних наборах даних дає йому змогу взаємодіяти з користувачами з різних доменів. Ця універсальність випливає з його доступу до величезної кількості текстових ресурсів, що робить його цінним інструментом для широкого кола користувачів.

Докладніше про ШІ:

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.

інші статті

Дамір Ялалов