Юли 11, 2023

GPT-4Изтеклите подробности хвърлят светлина върху неговия огромен мащаб и впечатляваща архитектура

Публикувано: 11 юли 2023 г. в 7:19 ч. Актуализирано: 11 юли 2023 г. в 7:23 ч.

Редактирано и проверено на фактите: 11 юли 2023 г. в 7:19 ч

Накратко

Изтеклата информация за GPT-4 предизвика вълнение сред общността на AI. С над 10 пъти параметрите на своя предшественик, GPT-3, GPT-4 се оценява на 1.8 трилиона параметри, разпределени в 120 слоя.

OpenAI внедри модел на смес от експерти (MoE), използвайки 16 експерти със 111 милиарда параметри за многослойни перцептрони (MLP). Ефективният процес на извеждане на модела използва 280 милиарда параметъра и 560 TFLOPs на предно преминаване, демонстрирайки OpenAIангажимента на компанията за максимизиране на ефективността и рентабилността. Обучителният набор от данни на модела включва 13 трилиона токена, с фина настройка от 8k до 32k.

OpenAI използван паралелизъм в GPT-4 за да използват пълния потенциал на своите A100 GPU, използвайки 8-посочен тензорен паралелизъм и 15-посочен конвейерен паралелизъм. Процесът на обучение беше обширен и изискваше много ресурси, като разходите варираха от 32 до 63 милиона долара.

GPT-4Цената за изводи е приблизително три пъти по-висока от предшественика му, но също така включва внимание на множество заявки, непрекъснато групиране и спекулативно декодиране. Архитектурата за изводи работи върху клъстер от 128 GPU, разпределени в множество центрове за данни.

Скорошното изтичане на подробности около GPT-4 предизвика шок в общността на AI. Изтеклата информация, получена от неразкрит източник, дава поглед върху вдъхващите страхопочитание способности и безпрецедентния мащаб на този новаторски модел. Ще разбием фактите и ще разкрием ключовите аспекти, които правят GPT-4 истинско технологично чудо.

GPT-4Изтеклите подробности хвърлят светлина върху неговия огромен мащаб и впечатляваща архитектура — Credit: Metaverse Post (mpost.io)

Съдържание

GPT-4Броят на огромните параметри
Комбиниран експертен модел (MoE)
Опростен алгоритъм за маршрутизиране на MoE
Ефективно заключение
Обширен набор от данни за обучение
Усъвършенстване чрез фина настройка от 8K до 32K
Мащабиране с графични процесори чрез паралелизъм
Разходи за обучение и предизвикателства при използването
Компромиси в комбинация от експерти
Цена на извода
Внимание за множество заявки
Непрекъснато дозиране
Vision Multi-Modal
Спекулативно декодиране
Архитектура на извода
Размер и състав на набора от данни
Слухове и спекулации
Мнението на репортера
Очарованието с GPT-4Знанието на
Универсалността на GPT-4

GPT-4Броят на огромните параметри

Едно от най-поразителните разкрития от изтичането е чистата величина на GPT-4. Той може да се похвали с поразителен размер, с повече от 10 пъти параметрите на своя предшественик, GPT-3. Смята се, че има зашеметяващ общ брой от приблизително 1.8 трилиони параметри разпределени във впечатляващите 120 слоя. Това значително увеличение на мащаба несъмнено допринася за GPT-4подобрени възможности и потенциал за новаторски напредък.

Комбиниран експертен модел (MoE)

За да осигурите разумни разходи, като същевременно поддържате изключителна производителност, OpenAI внедри модел на смесени експерти (MoE) в GPT-4. Чрез използване на 16 експерти в рамките на модела, всеки от които се състои от около 111 милиарда параметри за многослойни перцептрони (MLP), OpenAI ефективно оптимизирано разпределение на ресурсите. Трябва да се отбележи, че по време на всяко преминаване напред се насочват само двама експерти, което минимизира изчислителните изисквания, без да компрометира резултатите. Този иновативен подход демонстрира OpenAIангажимента на компанията за максимизиране на ефективността и рентабилността на своите модели.

Много интересно и подробно изтичане на GPT-4 архитектура, с отличен анализ на мотивите зад нея и нейните последици – от @dylan522p :https://t.co/eHE7VlGY5V

Резюме без платена стена можете да намерите тук: https://t.co/rLxw5s9ZDt
– Ян П. Харис (@jphme) Юли 11, 2023

Опростен алгоритъм за маршрутизиране на MoE

Докато моделът често изследва усъвършенствани алгоритми за маршрутизиране за избор на експерти, които да обработват всеки токен, OpenAIподход в настоящето GPT-4 Съобщава се, че моделът е по-прост. Твърди се, че алгоритъмът за маршрутизиране, използван от AI, е относително прост, но въпреки това ефективен. Приблизително 55 милиарда споделени параметри за внимание улесняват ефективното разпределение на токени към подходящите експерти в рамките на модела.

Ефективно заключение

GPT-4Процесът на изводи на демонстрира неговата ефективност и изчислителна мощ. Всяко предаване напред, посветено на генерирането на един токен, използва приблизително 280 милиарда параметъра и 560 TFLOPs (тера операции с плаваща запетая в секунда). Това е в рязък контраст с огромния мащаб на GPT-4, със своите 1.8 трилиона параметри и 3,700 TFLOPs на предно преминаване в чисто плътен модел. Акценти върху ефективното използване на ресурсите OpenAIотдаденост на постигането на оптимална производителност без прекомерни изчислителни изисквания.

Обширен набор от данни за обучение

GPT-4 е обучен на колосален набор от данни, включващ приблизително 13 трилиона токена. Важно е да се отбележи, че тези токени включват както уникални токени, така и токени, отчитащи номерата на епохи. The тренировъчен процес включва две епохи за данни, базирани на текст, и четири епохи за данни, базирани на код. OpenAI използва милиони редове данни за фина настройка на инструкции, получени от ScaleAI и вътрешно, за да подобри производителността на модела.

Предварителната фаза на обучение на GPT-4 използва дължина на контекста 8k. Впоследствие моделът претърпя фина настройка, което доведе до версията 32k. Тази прогресия се основава на фазата на предварително обучение, като подобрява възможностите на модела и го приспособява към конкретни задачи.

Мащабиране с графични процесори чрез паралелизъм

OpenAI използва силата на паралелизма в GPT-4 за да използват пълния потенциал на своите графични процесори A100. Те използваха 8-посочен тензорен паралелизъм, който максимизира паралелната обработка, тъй като това е ограничението за NVLink. Освен това беше използван 15-посочен паралелизъм на конвейера за допълнително подобряване на производителността. Въпреки че вероятно са били използвани специфични техники като ZeRo Stage 1, точната методология остава неразкрита.

Разходи за обучение и предизвикателства при използването

обучение GPT-4 беше обширно и ресурсоемко начинание. OpenAI разпределени приблизително 25,000 100 графични процесора A90 за период от 100 до 32 дни, работещи при степен на използване от приблизително 36% до 1% MFU (най-често използвани). Тренировъчният процес допусна множество неуспехи, което наложи чести рестарти от контролни точки. Ако се изчисли на $100 на AXNUMX час, разходи за обучение само за този цикъл ще възлезе на приблизително 63 милиона долара.

Компромиси в комбинация от експерти

Прилагането на смесен модел на експерти представя няколко компромиса. В случай че GPT-4, OpenAI избра 16 експерти вместо по-голям брой. Това решение отразява баланса между постигането на превъзходни резултати при загуба и осигуряването на обобщеност в различни задачи. Повече експерти могат да представят предизвикателства по отношение на обобщаването и конвергенцията на задачите. OpenAIизборът на да спортува внимание в експерт изборът е в съответствие с техния ангажимент за надеждна и стабилна работа.

Цена на извода

В сравнение със своя предшественик, моделът Davinci със 175 милиарда параметъра, GPT-4цената на извода е приблизително три пъти по-висока. Това несъответствие може да се дължи на няколко фактора, включително по-големите клъстери, необходими за поддръжка GPT-4 и по-ниското използване, постигнато по време на извода. Оценките показват приблизителна цена от $0.0049 цента на 1,000 токена за 128 A100 GPU и $0.0021 цента на 1,000 токена за 128 H100 GPU при извод GPT-4 с 8к. Тези цифри предполагат прилично използване и големи размери на партидите, решаващи съображения за оптимизиране на разходите.

Внимание за множество заявки

OpenAI използва вниманието на множество заявки (MQA), техника, широко използвана в областта, в GPT-4 както добре. Чрез прилагането на MQA, моделът изисква само една глава, което значително намалява капацитета на паметта, необходим за кеша ключ-стойност (KV кеш). Въпреки тази оптимизация, трябва да се отбележи, че партидата от 32k GPT-4 не може да се приспособи към 40GB A100 GPU, а 8k е ограничен от максималния размер на партидата.

Непрекъснато дозиране

За да постигнете баланс между забавянето и разходите за изводи, OpenAI включва както променливи размери на партидите, така и непрекъснато дозиране GPT-4. Този адаптивен подход позволява гъвкава и ефективна обработка, оптимизиране на използването на ресурсите и намаляване на изчислителните разходи.

GPT-4 въвежда отделен визуален енкодер заедно с текстовия енкодер, включващ кръстосано внимание между двата. Тази архитектура, напомняща на Flamingo, добавя допълнителни параметри към вече впечатляващия брой от 1.8 трилиона параметри на GPT-4. Моделът на визия претърпява отделна фина настройка с помощта на приблизително 2 трилиона токена след фазата на предварително обучение само за текст. Тази способност за визия дава сила автономни агенти за четене на уеб страници, транскрибиране на изображения и интерпретиране на видео съдържание - безценен актив в ерата на мултимедийните данни.

Спекулативно декодиране

Интересен аспект на GPT-4Стратегията на извода е възможната употреба на спекулативно декодиране. Този подход включва използването на по-малък, по-бърз модел за генериране на прогнози за множество токени предварително. Тези прогнозирани токени след това се подават в по-голям модел на „оракул“ като една партида. Ако по-малката прогнозите на модела в съответствие със споразумението на по-големия модел, няколко токена могат да бъдат декодирани заедно. Въпреки това, ако по-големият модел отхвърли токените, предсказани от черновата на модела, останалата част от партидата се изхвърля и изводът продължава единствено с по-големия модел. Този подход позволява ефективно декодиране, като същевременно потенциално приема последователности с по-ниска вероятност. Струва си да се отбележи, че тази спекулация остава непотвърдена към този момент.

Архитектура на извода

GPT-4Процесът на извод работи върху клъстер от 128 GPU, разпределени в множество центрове за данни на различни места. Тази инфраструктура използва 8-посочен тензорен паралелизъм и 16-посочен конвейерен паралелизъм, за да увеличи максимално изчислителната ефективност. Всеки възел, състоящ се от 8 графични процесора, побира приблизително 130 милиарда параметри. С размер на модела от 120 слоя, GPT-4 може да се побере в рамките на 15 различни възела, вероятно с по-малко слоеве в първия възел поради необходимостта от изчисляване на вграждания. Тези архитектурни решения улесняват извода с висока производителност, демонстрирайки OpenAIангажиментът на да разшири границите на изчислителната ефективност.

Размер и състав на набора от данни

GPT-4 беше обучен на впечатляващите 13 трилиона токена, предоставяйки му обширен корпус от текст, от който да се учи. Въпреки това, не всички токени могат да бъдат отчетени от известните набори от данни, използвани по време на обучението. Докато набори от данни като CommonCrawl и RefinedWeb допринасят значителна част от данни за обучение, остава част от токени, които не са отчетени, често наричани „тайни“ данни.

Слухове и спекулации

Появиха се спекулации относно произхода на тези неразкрити данни. Един слух предполага, че включва съдържание от популярни платформи като Twitter, Reddit и YouTube, подчертавайки потенциалното влияние на генерираното от потребителите съдържание при оформянето GPT-4база от знания. Освен това има предположения около включването на обширни колекции като LibGen, хранилище на милиони книги, и Sci-Hub, платформа, предоставяща достъп до множество научни статии. Представата, че GPT-4 беше обучен изцяло на GitHub и се разпространи сред ентусиастите на AI.

Мнението на репортера

Въпреки че има много слухове, важно е да подхождате към тях с повишено внимание. Обучението на GPT-4 може да са се възползвали значително от специален набор от данни, съставен от учебници за колежи. Този набор от данни, който обхваща широка гама от курсове и предмети, можеше да бъде старателно сглобен на ръка. Учебниците за колежа предоставят структурирана и изчерпателна база от знания, която може успешно да се използва за обучение на езиков модел и лесно се преобразува в текстови файлове. Включването на такъв набор от данни може да създаде впечатлението, че GPT-4 има познания в различни области.

Очарованието с GPT-4Знанието на

Един интригуващ аспект на GPT-4Обучението на е способността му да демонстрира познаване на конкретни книги и дори да си спомня уникални идентификатори от платформи като Project Euler. Изследователите са се опитали да извлекат запомнени части от книги от GPT-4 за да получите представа за неговото обучение, като допълнително подхранвате любопитството към вътрешната работа на модела. Тези открития подчертават удивителния капацитет на GPT-4 за запазване на информация и подчертаване на впечатляващите възможности на широкомащабните езикови модели.

Универсалността на GPT-4

Широкият спектър от теми и области, които GPT-4 може привидно да се ангажира с демонстрира своята гъвкавост. Независимо дали отговаряте на сложни въпроси в компютърните науки или се задълбочавате във философски дебати, GPT-4Обучението на разнообразен набор от данни го подготвя да се ангажира с потребители от различни домейни. Тази гъвкавост произтича от излагането му на огромен набор от текстови ресурси, което го прави ценен инструмент за широк кръг потребители.

Прочетете повече за AI:

Tags:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов