Júla 11, 2023

GPT-4Uniknuté detaily vrhajú svetlo na jeho masívne rozmery a pôsobivú architektúru

Zverejnené: 11. júla 2023 o 7:19 Aktualizované: 11. júla 2023 o 7:23

Upravené a skontrolované: 11. júla 2023 o 7:19

Stručne

Uniknuté informácie o GPT-4 vyvolalo rozruch v komunite AI. S viac ako 10-krát vyššími parametrami ako jeho predchodca, GPT-3, GPT-4 odhaduje sa, že má 1.8 bilióna parametrov rozdelených do 120 vrstiev.

OpenAI implementovala zmiešaný model expertov (MŽP), ktorý využíva 16 expertov so 111 miliardami parametrov pre viacvrstvové perceptróny (MLP). Efektívny proces odvodzovania modelu využíva 280 miliárd parametrov a 560 TFLOPs na jeden dopredný priechod, čo demonštruje OpenAIzáväzok maximalizovať efektivitu a nákladovú efektívnosť. Tréningový súbor údajov modelu obsahuje 13 biliónov tokenov s doladením od 8 32 do XNUMX XNUMX.

OpenAI využívaný paralelizmus v GPT-4 aby využili plný potenciál svojich GPU A100, využívajúc 8-smerný tenzorový paralelizmus a 15-cestný paralelizmus potrubia. Tréningový proces bol rozsiahly a náročný na zdroje, náklady sa pohybovali od 32 miliónov do 63 miliónov dolárov.

GPT-4Náklady na odvodenie sú približne trikrát vyššie ako u jeho predchodcu, ale zahŕňa aj pozornosť pri viacerých dotazoch, nepretržité dávkovanie a špekulatívne dekódovanie. Inferenčná architektúra funguje na klastri 128 GPU distribuovaných vo viacerých dátových centrách.

Nedávny únik podrobností o okolí GPT-4 vyvolalo otrasy v komunite AI. Uniknuté informácie získané z nezverejneného zdroja poskytujú pohľad na úžasné schopnosti a bezprecedentný rozsah tohto prelomového modelu. Rozoberieme fakty a odhalíme kľúčové aspekty GPT-4 skutočný technologický zázrak.

GPT-4Uniknuté detaily vrhajú svetlo na jeho masívne rozmery a pôsobivú architektúru — kredit: Metaverse Post (mpost.io)

GPT-4Počet masívnych parametrov

Jedným z najpozoruhodnejších odhalení úniku je samotná veľkosť GPT-4. Môže sa pochváliť ohromujúcou veľkosťou s viac ako 10-násobnými parametrami ako jeho predchodca, GPT-3. Odhaduje sa, že má ohromujúci súčet približne 1.8 bilión parametrov distribuovaných v pôsobivých 120 vrstvách. Toto podstatné zvýšenie rozsahu k tomu nepochybne prispieva GPT-4rozšírené schopnosti a potenciál pre prevratný pokrok.

Model zmesi expertov (MŽP)

Na zabezpečenie primeraných nákladov pri zachovaní výnimočného výkonu, OpenAI implementovala model zmesi expertov (MŽP) v GPT-4. Využitím 16 expertov v rámci modelu, z ktorých každý pozostáva z približne 111 miliárd parametrov pre viacvrstvové perceptróny (MLP), OpenAI efektívne optimalizované prideľovanie zdrojov. Je pozoruhodné, že počas každého prechodu dopredu sú smerovaní iba dvaja experti, čím sa minimalizujú výpočtové požiadavky bez kompromisov vo výsledkoch. Tento inovatívny prístup demonštruje OpenAIZáväzok spoločnosti maximalizovať efektivitu a nákladovú efektívnosť svojich modelov.

Veľmi zaujímavý a podrobný únik z GPT-4 architektúra, s vynikajúcou analýzou zdôvodnenia a jej dôsledkov – tým @dylan522p :https://t.co/eHE7VlGY5V

Neplatený súhrn nájdete tu: https://t.co/rLxw5s9ZDt
— Jan P. Harries (@jphme) Júla 11, 2023

Zjednodušený smerovací algoritmus MŽP

Zatiaľ čo model často skúma pokročilé smerovacie algoritmy na výber expertov na spracovanie každého tokenu, OpenAI's prístup v prúde GPT-4 model je údajne priamočiarejší. Algoritmus smerovania, ktorý používa AI, je údajne relatívne jednoduchý, no napriek tomu účinný. Približne 55 miliárd zdieľaných parametrov pre pozornosť uľahčuje efektívnu distribúciu tokenov príslušným odborníkom v rámci modelu.

Efektívna inferencia

GPT-4Inferenčný proces ukazuje jeho efektivitu a výpočtovú zdatnosť. Každý dopredný priechod, určený na generovanie jedného tokenu, využíva približne 280 miliárd parametrov a 560 TFLOPs (tera operácie s pohyblivou rádovou čiarkou za sekundu). To je v ostrom kontraste s obrovským rozsahom GPT-4, so svojimi 1.8 bilióna parametrov a 3,700 XNUMX TFLOP na jeden prechod dopredu v čisto hustom modeli. Efektívne využívanie zdrojov zdôrazňuje OpenAIodhodlanie dosiahnuť optimálny výkon bez nadmerných výpočtových požiadaviek.

Rozsiahly tréningový súbor údajov

GPT-4 bol trénovaný na kolosálnom súbore údajov obsahujúcich približne 13 biliónov tokenov. Je dôležité poznamenať, že tieto tokeny zahŕňajú jedinečné tokeny aj tokeny, ktoré zodpovedajú číslam epoch. The tréningový proces obsahuje dve epochy pre textové dáta a štyri epochy pre dáta založené na kóde. OpenAI využil milióny riadkov údajov na jemné doladenie pokynov získaných zo ScaleAI a interne na zlepšenie výkonu modelu.

Predtréningová fáza GPT-4 používa kontextovú dĺžku 8k. Následne prešiel model jemným dolaďovaním, výsledkom čoho je 32k verzia. Tento postup stavia na predtréningovej fáze, zlepšuje schopnosti modelu a prispôsobuje ho špecifickým úlohám.

Škálovanie s GPU cez paralelizmus

OpenAI využil silu paralelizmu v GPT-4 aby využili plný potenciál svojich GPU A100. Použili 8-cestný paralelný tenzor, ktorý maximalizuje paralelné spracovanie, pretože je to limit pre NVLink. Okrem toho sa na ďalšie zvýšenie výkonu použil paralelizmus 15-smerného potrubia. Aj keď sa pravdepodobne použili špecifické techniky, ako napríklad ZeRo Stage 1, presná metodika zostáva nezverejnená.

Výzvy týkajúce sa nákladov na školenia a využitia

Vzdelávanie GPT-4 bolo rozsiahle a na zdroje náročné úsilie. OpenAI alokovalo približne 25,000 100 GPU A90 na obdobie 100 až 32 dní, pričom pracovalo s mierou využitia približne 36 % až 1 % MFU (najčastejšie používané). Tréningový proces spôsobil množstvo zlyhaní, ktoré si vyžadovali časté reštarty z kontrolných bodov. Ak sa odhaduje na 100 dolár za hodinu AXNUMX, náklady na školenia len tento beh by predstavoval približne 63 miliónov dolárov.

Kompromisy v zmesi odborníkov

Implementácia modelu zmesi expertov predstavuje niekoľko kompromisov. V prípade GPT-4, OpenAI zvolili 16 odborníkov namiesto vyššieho počtu. Toto rozhodnutie odráža rovnováhu medzi dosahovaním vynikajúcich stratových výsledkov a zabezpečením zovšeobecniteľnosti naprieč rôznymi úlohami. Viac odborníkov môže predstavovať výzvy v zmysle zovšeobecňovania úloh a konvergencie. OpenAIvoľba cvičiť opatrnosť u odborníka výber je v súlade s ich záväzkom k spoľahlivému a robustnému výkonu.

Náklady na odvodenie

V porovnaní so svojím predchodcom, modelom Davinci so 175 miliardami parametrov, GPT-4náklady na odvodenie sú približne trikrát vyššie. Tento nesúlad možno pripísať niekoľkým faktorom, vrátane väčších klastrov potrebných na podporu GPT-4 a nižšie využitie dosiahnuté počas inferencie. Odhady uvádzajú približnú cenu 0.0049 centov za 1,000 128 tokenov pre 100 GPU A0.0021 a 1,000 centov za 128 100 tokenov pre XNUMX GPU HXNUMX pri odvodení GPT-4 s 8k. Tieto čísla predpokladajú slušné využitie a veľké veľkosti dávok, čo sú rozhodujúce úvahy pre optimalizáciu nákladov.

Multi-Query Attention

OpenAI využíva multi-query attention (MQA), techniku široko používanú v tejto oblasti GPT-4 tiež. Implementáciou MQA model vyžaduje iba jednu hlavu, čím sa výrazne znižuje kapacita pamäte potrebná pre vyrovnávaciu pamäť kľúč-hodnota (KV cache). Napriek tejto optimalizácii je potrebné poznamenať, že 32k dávka GPT-4 nie je možné umiestniť na 40GB GPU A100 a 8k je obmedzených maximálnou veľkosťou dávky.

Nepretržité dávkovanie

Ak chcete dosiahnuť rovnováhu medzi latenciou a nákladmi na odvodenie, OpenAI zahŕňa variabilné veľkosti dávok a kontinuálne dávkovanie GPT-4. Tento adaptívny prístup umožňuje flexibilné a efektívne spracovanie, optimalizáciu využitia zdrojov a zníženie výpočtovej réžie.

GPT-4 zavádza samostatný kódovač videnia popri kódovači textu s krížovou pozornosťou medzi týmito dvoma. Táto architektúra, pripomínajúca Flamingo, pridáva ďalšie parametre k už tak pôsobivému počtu 1.8 bilióna parametrov GPT-4. Model videnia prechádza samostatným dolaďovaním pomocou približne 2 biliónov tokenov po fáze predbežného školenia, ktoré obsahuje iba text. Táto schopnosť videnia posilňuje autonómnych agentov čítať webové stránky, prepisovať obrázky a interpretovať obsah videa – neoceniteľné aktívum vo veku multimediálnych údajov.

Špekulatívne dekódovanie

Zaujímavý aspekt GPT-4Stratégia odvodzovania je možné použitie špekulatívneho dekódovania. Tento prístup zahŕňa použitie menšieho, rýchlejšieho model na generovanie predpovedí pre viacero tokenov vopred. Tieto predpovedané tokeny sa potom vložia do väčšieho modelu „orákula“ ako jedna dávka. Ak menšie predpovede modelu v súlade s dohodou väčšieho modelu je možné spoločne dekódovať niekoľko tokenov. Ak však väčší model odmietne tokeny predpovedané modelom konceptu, zvyšok dávky sa zahodí a dedukcia pokračuje iba s väčším modelom. Tento prístup umožňuje efektívne dekódovanie, pričom potenciálne akceptuje sekvencie s nižšou pravdepodobnosťou. Stojí za zmienku, že táto špekulácia zostáva v súčasnosti neoverená.

Inferenčná architektúra

GPT-4Proces odvodzovania funguje na klastri 128 GPU distribuovaných vo viacerých dátových centrách na rôznych miestach. Táto infraštruktúra využíva 8-cestný tenzorový paralelizmus a 16-cestný pipeline paralelizmus na maximalizáciu výpočtovej efektivity. Každý uzol skladajúci sa z 8 GPU pojme približne 130 miliárd parametrov. S veľkosťou modelu 120 vrstiev, GPT-4 sa zmestí do 15 rôznych uzlov, možno s menším počtom vrstiev v prvom uzle kvôli potrebe vypočítať vloženia. Tieto architektonické voľby uľahčujú vysokovýkonné vyvodzovanie a demonštrujú OpenAI's odhodlanie posúvať hranice výpočtovej efektivity.

Veľkosť a zloženie množiny údajov

GPT-4 bola trénovaná na pôsobivých 13 biliónoch tokenov, čo jej poskytlo rozsiahly korpus textu, z ktorého sa dá učiť. Nie všetky tokeny však môžu byť zohľadnené v známych súboroch údajov používaných počas školenia. Zatiaľ čo množiny údajov ako CommonCrawl a RefinedWeb prispievajú významnou časťou tréningové údaje, zostáva časť tokenov, ktoré nie sú započítané, často označované ako „tajné“ údaje.

Fámy a špekulácie

Objavili sa špekulácie týkajúce sa pôvodu týchto nezverejnených údajov. Jedna fáma naznačuje, že zahŕňa obsah z populárnych platforiem, ako sú Twitter, Reddit a YouTube, čo poukazuje na potenciálny vplyv obsahu generovaného používateľmi pri formovaní GPT-4vedomostnú základňu. Okrem toho existujú dohady týkajúce sa zahrnutia rozsiahlych zbierok, ako je LibGen, úložisko miliónov kníh, a Sci-Hub, platforma poskytujúca prístup k mnohým vedeckým dokumentom. Predstava, že GPT-4 bol vyškolený na celom GitHub, ktorý sa tiež šíril medzi nadšencami AI.

Názor reportéra

Hoci existuje veľa fám, je dôležité pristupovať k týmto fámam opatrne. Školenie o GPT-4 mohli mať veľký úžitok zo špeciálneho súboru údajov zložených z vysokoškolských učebníc. Tento súbor údajov, ktorý pokrýva širokú škálu kurzov a predmetov, mohol byť starostlivo zostavený ručne. Vysokoškolské učebnice poskytujú štruktúrovanú a komplexnú vedomostnú základňu, ktorú možno úspešne použiť na trénovanie jazykového modelu a sú ľahko premeniteľné na textové súbory. Zahrnutie takéhoto súboru údajov by mohlo vyvolať dojem, že GPT-4 má znalosti v rôznych oblastiach.

Fascinácia s GPT-4's Knowledge

Jeden zaujímavý aspekt GPT-4Školením je schopnosť preukázať znalosť konkrétnych kníh a dokonca si vybaviť jedinečné identifikátory z platforiem, ako je Project Euler. Výskumníci sa pokúsili extrahovať zapamätané časti kníh GPT-4 získať prehľad o jeho tréningu, čo ešte viac podnieti zvedavosť na vnútorné fungovanie modelu. Tieto objavy zdôrazňujú úžasnú schopnosť GPT-4 uchovávať informácie a podčiarknuť pôsobivé schopnosti rozsiahlych jazykových modelov.

Všestrannosť GPT-4

Široké spektrum tém a oblastí, ktoré GPT-4 môže zdanlivo zaujať vitrínami jeho všestrannosti. Či už ide o odpovedanie na zložité otázky v informatike, alebo o ponáranie sa do filozofických debát, GPT-4Školenie o rôznorodom súbore údajov ho vybaví na interakciu s používateľmi z rôznych domén. Táto všestrannosť pramení z jeho vystavenia obrovskému množstvu textových zdrojov, čo z neho robí cenný nástroj pre široké spektrum používateľov.

Prečítajte si viac o AI:

Tagy:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.

Ďalšie články

Damir Yalalov