Juli 11, 2023

GPT-4s läckta detaljer kastar ljus över dess enorma skala och imponerande arkitektur

Publicerad: 11 juli 2023 kl. 7 Uppdaterad: 19 juli 11 kl. 2023

Redigerad och faktagranskad: 11 juli 2023 kl. 7

I korthet

Den läckta informationen om GPT-4 har väckt spänning bland AI-gemenskapen. Med över 10 gånger så många parametrar som sin föregångare, GPT-3, GPT-4 beräknas ha 1.8 biljoner parametrar fördelade över 120 lager.

OpenAI implementerade en blandning av experter (MoE) modell, med användning av 16 experter med 111 miljarder parametrar för multi-layer perceptrons (MLP). Modellens effektiva slutledningsprocess använder 280 miljarder parametrar och 560 TFLOPs per framåtpassning, vilket visar OpenAIs engagemang för att maximera effektiviteten och kostnadseffektiviteten. Modellens träningsdatauppsättning innehåller 13 biljoner tokens, med finjustering från 8k till 32k.

OpenAI använde parallellism i GPT-4 att dra nytta av den fulla potentialen hos deras A100 GPU: er, med 8-vägs tensorparallellism och 15-vägs pipelineparallellism. Utbildningsprocessen var omfattande och resurskrävande, med kostnader som sträckte sig från $32 miljoner till $63 miljoner.

GPT-4s slutledningskostnad är ungefär tre gånger högre än sin föregångare, men den inkluderar också uppmärksamhet på flera frågor, kontinuerlig batchning och spekulativ avkodning. Slutledningsarkitekturen fungerar på ett kluster av 128 GPU: er, fördelade över flera datacenter.

Den senaste läckan av detaljer kring GPT-4 har skickat chockvågor genom AI-gemenskapen. Den läckta informationen, som erhållits från en okänd källa, ger en inblick i de imponerande funktionerna och den oöverträffade omfattningen av denna banbrytande modell. Vi kommer att bryta ner fakta och avslöja nyckelaspekterna som gör GPT-4 ett verkligt tekniskt under.

GPT-4s läckta detaljer kastar ljus över dess enorma skala och imponerande arkitektur — Credit: Metaverse Post (mpost.io)

GPT-4Massiva parametrar räknas

En av de mest slående avslöjanden från läckan är omfattningen av GPT-4. Den har en häpnadsväckande storlek, med mer än 10 gånger parametrarna från sin föregångare, GPT-3. Det beräknas ha en svindlande summa på cirka 1.8 biljoner parametrar fördelat på imponerande 120 lager. Denna kraftiga skalaökning bidrar utan tvekan till GPT-4s förbättrade möjligheter och potential för banbrytande framsteg.

Mixture of Experts Model (MoE)

För att säkerställa rimliga kostnader med bibehållen exceptionell prestanda, OpenAI implementerade en blandning av experter (MoE) modell i GPT-4. Genom att använda 16 experter inom modellen, var och en bestående av cirka 111 miljarder parametrar för multi-layer perceptrons (MLP), OpenAI effektivt optimerad resursallokering. Noterbart är att under varje framåtpassning dirigeras endast två experter, vilket minimerar beräkningskraven utan att kompromissa med resultaten. Detta innovativa tillvägagångssätt visar OpenAIs engagemang för att maximera effektiviteten och kostnadseffektiviteten i sina modeller.

Mycket intressant och detaljerad läcka av GPT-4 arkitektur, med utmärkt analys av resonemanget bakom det och dess implikationer – av @dylan522p :https://t.co/eHE7VlGY5V

En sammanfattning utan betalvägg finns här: https://t.co/rLxw5s9ZDt
— Jan P. Harries (@jphme) Juli 11, 2023

Förenklad MoE Routing Algoritm

Även om modellen ofta utforskar avancerade routingalgoritmer för att välja experter för att hantera varje token, OpenAIs tillvägagångssätt i nuvarande GPT-4 modellen är enligt uppgift mer okomplicerad. Routingalgoritmen som används av AI påstås vara relativt enkel, men ändå effektiv. Cirka 55 miljarder delade parametrar för uppmärksamhet underlättar effektiv distribution av tokens till lämpliga experter inom modellen.

Effektiv slutledning

GPT-4s slutledningsprocess visar dess effektivitet och beräkningsförmåga. Varje framåtpassning, dedikerad till att generera en enda token, använder cirka 280 miljarder parametrar och 560 TFLOPs (tera flyttalsoperationer per sekund). Detta står i skarp kontrast till den enorma omfattningen av GPT-4, med sina 1.8 biljoner parametrar och 3,700 XNUMX TFLOPs per framåtpassning i en rent tät modell. Den effektiva resursanvändningen framhäver OpenAIs engagemang för att uppnå optimal prestanda utan alltför höga beräkningskrav.

Omfattande utbildningsdatauppsättning

GPT-4 har tränats på en kolossal datauppsättning som omfattar cirka 13 biljoner tokens. Det är viktigt att notera att dessa tokens inkluderar både unika tokens och tokens som står för epoknummer. De utbildningsprocessen innehåller två epoker för textbaserad data och fyra epoker för kodbaserad data. OpenAI utnyttjade miljontals rader med instruktionsfinjusteringsdata hämtade från ScaleAI och internt för att förfina modellens prestanda.

Förträningsfasen av GPT-4 använde en 8k kontextlängd. Därefter genomgick modellen finjustering, vilket resulterade i 32k-versionen. Denna utveckling bygger på förträningsfasen, förbättrar modellens kapacitet och skräddarsyr den för specifika uppgifter.

Skalning med GPU:er via parallellism

OpenAI utnyttjade parallellismens kraft GPT-4 att utnyttja den fulla potentialen hos deras A100 GPU:er. De använde 8-vägs tensorparallellism, vilket maximerar parallell bearbetning, eftersom det är gränsen för NVLink. Dessutom användes 15-vägs pipelineparallellism för att ytterligare förbättra prestandan. Även om specifika tekniker som ZeRo Steg 1 sannolikt användes, förblir den exakta metoden okänd.

Utmaningar för utbildningskostnader och användning

Utbildning GPT-4 var ett omfattande och resurskrävande arbete. OpenAI tilldelade cirka 25,000 100 A90 GPU:er under en period av 100 till 32 dagar, med en användningsgrad på cirka 36 % till 1 % MFU (används oftast). Träningsprocessen orsakade många misslyckanden, vilket krävde frekventa omstarter från kontrollpunkter. Om det uppskattas till $100 per AXNUMX timme, utbildningskostnader enbart för denna körning skulle uppgå till cirka 63 miljoner dollar.

Avvägningar i blandning av experter

Att implementera en blandning av expertmodell presenterar flera avvägningar. I fallet med GPT-4, OpenAI valde 16 experter istället för ett högre antal. Detta beslut återspeglar en balans mellan att uppnå överlägsna förlustresultat och att säkerställa generaliserbarhet över olika uppgifter. Fler experter kan innebära utmaningar när det gäller generalisering av uppgifter och konvergens. OpenAIs val att träna försiktighet i expert urval överensstämmer med deras engagemang för pålitlig och robust prestanda.

Slutledningskostnad

Jämfört med sin föregångare, Davinci-modellen med 175 miljarder parametrar, GPT-4s slutledningskostnad är ungefär tre gånger högre. Denna diskrepans kan tillskrivas flera faktorer, inklusive de större kluster som krävs för att stödja GPT-4 och det lägre utnyttjandet som uppnås under slutledning. Uppskattningar indikerar en ungefärlig kostnad på 0.0049 cent per 1,000 128 tokens för 100 A0.0021 GPU:er och 1,000 $ cent per 128 100 tokens för XNUMX HXNUMX GPU: er. GPT-4 med en 8k. Dessa siffror förutsätter anständigt utnyttjande och höga batchstorlekar, avgörande överväganden för kostnadsoptimering.

Uppmärksamhet för flera frågor

OpenAI utnyttjar multi-query uppmärksamhet (MQA), en teknik som används i stor utsträckning inom området GPT-4 också. Genom att implementera MQA kräver modellen bara ett huvud, vilket avsevärt minskar minneskapaciteten som krävs för nyckel-värdescachen (KV-cachen). Trots denna optimering bör det noteras att 32k batch GPT-4 kan inte rymmas på 40 GB A100 GPU:er, och 8k är begränsad av den maximala batchstorleken.

Kontinuerlig batchning

För att hitta en balans mellan latens och slutledningskostnader, OpenAI innehåller både varierande satsstorlekar och kontinuerlig satsning GPT-4. Detta adaptiva tillvägagångssätt möjliggör flexibel och effektiv bearbetning, optimerar resursutnyttjandet och minskar beräkningsoverhead.

GPT-4 introducerar en separat vision-kodare vid sidan av textkodaren, med korsuppmärksamhet mellan de två. Denna arkitektur, som påminner om Flamingo, lägger till ytterligare parametrar till det redan imponerande antalet 1.8 biljoner parametrar på GPT-4. Visionsmodellen genomgår separat finjustering med cirka 2 biljoner tokens efter förträningsfasen endast med text. Denna synförmåga stärker autonoma ombud att läsa webbsidor, transkribera bilder och tolka videoinnehåll – en ovärderlig tillgång i multimediadataåldern.

Spekulativ avkodning

En intressant aspekt av GPT-4s slutledningsstrategi är möjlig användning av spekulativ avkodning. Detta tillvägagångssätt innebär att man använder en mindre, snabbare modell för att generera förutsägelser för flera tokens i förväg. Dessa förutspådda tokens matas sedan in i en större "oracle"-modell som en enda batch. Om den mindre modellens förutsägelser i linje med den större modellens överenskommelse kan flera tokens avkodas tillsammans. Men om den större modellen förkastar de tokens som förutsägs av utkastmodellen, kasseras resten av partiet, och slutsatsen fortsätter enbart med den större modellen. Detta tillvägagångssätt möjliggör effektiv avkodning samtidigt som sekvenser med lägre sannolikhet accepteras. Det är värt att notera att denna spekulation förblir overifierad för närvarande.

Slutledningsarkitektur

GPT-4s slutledningsprocess fungerar på ett kluster av 128 GPU: er, fördelade över flera datacenter på olika platser. Denna infrastruktur använder 8-vägs tensorparallellism och 16-vägs pipelineparallellism för att maximera beräkningseffektiviteten. Varje nod, som består av 8 GPU:er, rymmer cirka 130 miljarder parametrar. Med en modellstorlek på 120 lager, GPT-4 kan passa inom 15 olika noder, eventuellt med färre lager i den första noden på grund av behovet av att beräkna inbäddningar. Dessa arkitektoniska val underlättar högpresterande slutledning, demonstrerande OpenAIs engagemang för att tänja på gränserna för beräkningseffektivitet.

Datauppsättningens storlek och sammansättning

GPT-4 tränades på imponerande 13 biljoner tokens, vilket försåg den med en omfattande korpus av text att lära av. Dock kan inte alla tokens redovisas av de kända datamängder som används under träning. Medan datauppsättningar som CommonCrawl och RefinedWeb bidrar med en betydande del av träningsdata, det återstår en del av tokens som saknas, ofta kallade "hemliga" data.

Rykten och spekulationer

Spekulationer har dykt upp om ursprunget till dessa hemliga uppgifter. Ett rykte tyder på att det inkluderar innehåll från populära plattformar som Twitter, Reddit och YouTube, vilket lyfter fram det potentiella inflytandet av användargenererat innehåll i utformningen GPT-4s kunskapsbas. Dessutom finns det gissningar kring inkluderandet av expansiva samlingar som LibGen, ett förråd med miljontals böcker, och Sci-Hub, en plattform som ger tillgång till många vetenskapliga artiklar. Uppfattningen att GPT-4 utbildades på hela GitHub har också cirkulerat bland AI-entusiaster.

Reporterns åsikt

Även om det finns många rykten är det viktigt att närma sig dessa rykten med försiktighet. Utbildningen av GPT-4 kan ha haft stor nytta av en speciell datamängd som består av läroböcker från universitetet. Denna datauppsättning, som täcker ett brett utbud av kurser och ämnen, kunde noggrant ha sammanställts för hand. Högskoleböcker ger en strukturerad och omfattande kunskapsbas som framgångsrikt kan användas för att träna en språkmodell och som lätt kan konverteras till textfiler. Inkluderandet av en sådan datauppsättning kan ge intrycket av att GPT-4 är kunnig inom en mängd olika områden.

Fascinationen med GPT-4s Kunskap

En spännande aspekt av GPT-4s utbildning är dess förmåga att uppvisa förtrogenhet med specifika böcker och till och med återkalla unika identifierare från plattformar som Project Euler. Forskare har försökt extrahera memorerade delar av böcker från GPT-4 för att få insikter i dess träning, vilket ytterligare väcker nyfikenhet om modellens inre funktioner. Dessa upptäckter belyser den häpnadsväckande kapaciteten hos GPT-4 att behålla information och understryka den imponerande förmågan hos storskaliga språkmodeller.

Mångsidigheten av GPT-4

Det breda spektrumet av ämnen och fält som GPT-4 kan till synes engagera sig i visar dess mångsidighet. Oavsett om det handlar om att svara på komplexa frågor inom datavetenskap eller fördjupa sig i filosofiska debatter, GPT-4s utbildning i en mångsidig datauppsättning utrustar den för att engagera sig med användare från olika domäner. Denna mångsidighet härrör från dess exponering för ett stort utbud av textresurser, vilket gör det till ett värdefullt verktyg för ett brett spektrum av användare.

Läs mer om AI:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov