Juli 11, 2023

GPT-4's lækkede detaljer kaster lys over dens enorme skala og imponerende arkitektur

Udgivet: 11. juli 2023 kl. 7 Opdateret: 19. juli 11 kl. 2023

Redigeret og faktatjekket: 11. juli 2023 kl. 7

Kort sagt

De lækkede oplysninger vedr GPT-4 har vakt begejstring blandt AI-samfundet. Med over 10 gange så mange parametre som sin forgænger, GPT-3, GPT-4 anslås at have 1.8 billioner parametre fordelt på 120 lag.

OpenAI implementeret en blanding af eksperter (MoE) model, ved at bruge 16 eksperter med 111 milliarder parametre for multi-layer perceptrons (MLP). Modellens effektive slutningsproces bruger 280 milliarder parametre og 560 TFLOPs pr. fremadgående pass, hvilket demonstrerer OpenAI's forpligtelse til at maksimere effektiviteten og omkostningseffektiviteten. Modellens træningsdatasæt inkluderer 13 billioner tokens med finjustering fra 8k til 32k.

OpenAI brugt parallelisme i GPT-4 at udnytte det fulde potentiale af deres A100 GPU'er ved at anvende 8-vejs tensor-parallelisme og 15-vejs pipeline-parallelisme. Uddannelsesprocessen var omfattende og ressourcekrævende, med omkostninger varierende fra $32 millioner til $63 millioner.

GPT-4's slutningsomkostninger er cirka tre gange højere end dens forgænger, men den inkorporerer også opmærksomhed på flere forespørgsler, kontinuerlig batching og spekulativ afkodning. Inferensarkitekturen fungerer på en klynge af 128 GPU'er, fordelt på flere datacentre.

Den seneste læk af detaljer omkring GPT-4 har sendt chokbølger gennem AI-fællesskabet. Den lækkede information, der er hentet fra en ikke-oplyst kilde, giver et indblik i de ærefrygtindgydende muligheder og hidtil usete omfang af denne banebrydende model. Vi vil nedbryde fakta og afsløre de vigtigste aspekter, der gør GPT-4 et sandt teknologisk vidunder.

GPT-4's lækkede detaljer kaster lys over dens enorme skala og imponerende arkitektur — Credit: Metaverse Post (mpost.io)

GPT-4s massive parametretælling

En af de mest slående afsløringer fra lækagen er omfanget af GPT-4. Den kan prale af en forbløffende størrelse, med mere end 10 gange så mange parametre som sin forgænger, GPT-3. Det anslås at have en svimlende total på cirka 1.8 billioner parametre fordelt på imponerende 120 lag. Denne betydelige skalaforøgelse bidrager uden tvivl til GPT-4s forbedrede muligheder og potentiale for banebrydende fremskridt.

Blanding af ekspertmodeller (MoE)

For at sikre rimelige omkostninger og samtidig opretholde enestående ydeevne, OpenAI implementeret en blanding af eksperter (MoE) model i GPT-4. Ved at bruge 16 eksperter i modellen, der hver består af omkring 111 milliarder parametre for multi-layer perceptrons (MLP), OpenAI effektivt optimeret ressourceallokering. Det er bemærkelsesværdigt, at under hvert fremadgående pass dirigeres kun to eksperter, hvilket minimerer beregningskravene uden at kompromittere resultaterne. Denne innovative tilgang demonstrerer OpenAI's forpligtelse til at maksimere effektiviteten og omkostningseffektiviteten i deres modeller.

Meget interessant og detaljeret læk af GPT-4 arkitektur, med fremragende analyse af ræsonnementet bag og dets implikationer – af @dylan522p :https://t.co/eHE7VlGY5V

En ikke-paywalled oversigt kan findes her: https://t.co/rLxw5s9ZDt
— Jan P. Harries (@jphme) Juli 11, 2023

Forenklet MoE Routing Algoritme

Mens modellen ofte udforsker avancerede routingalgoritmer til at vælge eksperter til at håndtere hver token, OpenAI's tilgang i den nuværende GPT-4 modellen er efter sigende mere ligetil. Routingalgoritmen, der anvendes af AI, siges at være relativt enkel, men ikke desto mindre effektiv. Cirka 55 milliarder delte parametre for opmærksomhed letter den effektive distribution af tokens til de relevante eksperter i modellen.

Effektiv slutning

GPT-4's slutningsproces viser dens effektivitet og beregningsdygtighed. Hvert fremadgående pass, dedikeret til at generere et enkelt token, bruger cirka 280 milliarder parametre og 560 TFLOP'er (tera flydende komma-operationer per sekund). Dette står i skarp kontrast til det enorme omfang af GPT-4, med sine 1.8 billioner parametre og 3,700 TFLOPs pr. fremadgående pas i en ren tæt model. Den effektive brug af ressourcer fremhæver OpenAI's dedikation til at opnå optimal ydeevne uden for store beregningskrav.

Omfattende træningsdatasæt

GPT-4 er blevet trænet på et kolossalt datasæt omfattende cirka 13 billioner tokens. Det er vigtigt at bemærke, at disse tokens inkluderer både unikke tokens og tokens, der tegner sig for epoketal. Det træningsproces omfatter to epoker for tekstbaserede data og fire epoker for kodebaserede data. OpenAI udnyttede millioner af rækker af instruktionsfinjusteringsdata hentet fra ScaleAI og internt for at forfine modellens ydeevne.

Fortræningsfasen af GPT-4 brugt en kontekstlængde på 8k. Efterfølgende undergik modellen finjustering, hvilket resulterede i 32k-versionen. Denne progression bygger på fortræningsfasen, og forbedrer modellens muligheder og skræddersy den til specifikke opgaver.

Skalering med GPU'er via Parallelisme

OpenAI udnyttet parallelismens kraft i GPT-4 at udnytte det fulde potentiale af deres A100 GPU'er. De anvendte 8-vejs tensor parallelisme, som maksimerer parallel behandling, da det er grænsen for NVLink. Derudover blev 15-vejs pipeline parallelitet brugt til yderligere at forbedre ydeevnen. Mens specifikke teknikker såsom ZeRo Stage 1 sandsynligvis blev anvendt, forbliver den nøjagtige metode uoplyst.

Udfordringer til uddannelsesomkostninger og -udnyttelse

Kurser GPT-4 var en omfattende og ressourcekrævende indsats. OpenAI tildelt ca. 25,000 A100 GPU'er over en periode på 90 til 100 dage, med en udnyttelsesgrad på ca. 32% til 36% MFU (hyppigst brugt). Træningsprocessen pådrog sig adskillige fejl, hvilket nødvendiggjorde hyppige genstarter fra kontrolpunkter. Hvis det anslås til $1 pr. A100 time, uddannelsesomkostninger for dette løb alene ville beløbe sig til cirka 63 millioner dollars.

Afvejninger i blanding af eksperter

Implementering af en blanding af ekspertmodeller præsenterer flere afvejninger. I tilfælde af GPT-4, OpenAI valgt 16 eksperter i stedet for et højere antal. Denne beslutning afspejler en balance mellem at opnå overlegne tabsresultater og at sikre generaliserbarhed på tværs af forskellige opgaver. Flere eksperter kan give udfordringer med hensyn til opgavegeneralisering og konvergens. OpenAIs valg om at træne forsigtighed i ekspert valget stemmer overens med deres forpligtelse til pålidelig og robust ydeevne.

Inferensomkostninger

Sammenlignet med sin forgænger, Davinci-modellen med 175 milliarder parametre, GPT-4's slutningsomkostninger er cirka tre gange højere. Denne uoverensstemmelse kan tilskrives flere faktorer, herunder de større klynger, der kræves for at understøtte GPT-4 og den lavere udnyttelse opnået under inferens. Estimater indikerer en omtrentlig pris på $0.0049 cents pr. 1,000 tokens for 128 A100 GPU'er og $0.0021 cents pr. 1,000 tokens for 128 H100 GPU'er, når der udledes GPT-4 med en 8k. Disse tal forudsætter en anstændig udnyttelse og høje batchstørrelser, afgørende overvejelser for omkostningsoptimering.

Multi-Query Opmærksomhed

OpenAI udnytter multi-query opmærksomhed (MQA), en teknik, der er meget udbredt i feltet, i GPT-4 såvel. Ved at implementere MQA kræver modellen kun ét hoved, hvilket væsentligt reducerer den nødvendige hukommelseskapacitet til nøgleværdi-cachen (KV-cachen). På trods af denne optimering skal det bemærkes, at 32k batch GPT-4 kan ikke rummes på 40 GB A100 GPU'er, og 8k er begrænset af den maksimale batchstørrelse.

Kontinuerlig batching

For at finde en balance mellem ventetid og slutningsomkostninger, OpenAI Inkorporerer både variable batchstørrelser og kontinuerlig batching i GPT-4. Denne adaptive tilgang giver mulighed for fleksibel og effektiv behandling, optimerer ressourceudnyttelsen og reducerer beregningsmæssig overhead.

GPT-4 introducerer en separat vision-encoder ved siden af tekst-encoderen, der byder på krydsopmærksomhed mellem de to. Denne arkitektur, der minder om Flamingo, føjer yderligere parametre til det allerede imponerende antal 1.8 billioner parametre på GPT-4. Synsmodellen gennemgår separat finjustering ved hjælp af ca. 2 billioner tokens efter den kun tekst-præ-træningsfase. Denne visionsevne styrker autonome agenter at læse websider, transskribere billeder og fortolke videoindhold - et uvurderligt aktiv i multimediedataens tidsalder.

Spekulativ afkodning

Et interessant aspekt af GPT-4's slutningsstrategi er den mulige brug af spekulativ afkodning. Denne tilgang involverer ansættelse af en mindre, hurtigere model at generere forudsigelser for flere tokens på forhånd. Disse forudsagte tokens føres derefter ind i en større "oracle"-model som en enkelt batch. Hvis den mindre modellens forudsigelser i overensstemmelse med den større models aftale, kan flere tokens afkodes sammen. Men hvis den større model afviser de tokens, der er forudsagt af kladdemodellen, kasseres resten af partiet, og slutningen fortsætter udelukkende med den større model. Denne tilgang giver mulighed for effektiv afkodning, mens den potentielt accepterer sekvenser med lavere sandsynlighed. Det er værd at bemærke, at denne spekulation forbliver ubekræftet på nuværende tidspunkt.

Inferens arkitektur

GPT-4's slutningsproces fungerer på en klynge af 128 GPU'er, fordelt på flere datacentre på forskellige steder. Denne infrastruktur anvender 8-vejs tensor-parallelisme og 16-vejs pipeline-parallelisme for at maksimere beregningseffektiviteten. Hver node, der omfatter 8 GPU'er, rummer cirka 130 milliarder parametre. Med en modelstørrelse på 120 lag, GPT-4 kan passe inden for 15 forskellige noder, muligvis med færre lag i den første node på grund af behovet for at beregne indlejringer. Disse arkitektoniske valg letter højtydende slutninger, demonstrerer OpenAI's forpligtelse til at skubbe grænserne for beregningseffektivitet.

Datasætstørrelse og sammensætning

GPT-4 blev trænet på imponerende 13 billioner tokens, hvilket gav den et omfattende korpus af tekst at lære af. Det er dog ikke alle tokens, der kan forklares af de kendte datasæt, der bruges under træning. Mens datasæt som CommonCrawl og RefinedWeb bidrager med en betydelig del af træningsdata, er der stadig en del af tokens, der ikke er redegjort for, ofte omtalt som de "hemmelige" data.

Rygter og spekulationer

Der er opstået spekulationer om oprindelsen af disse hemmelige data. Et rygte antyder, at det inkluderer indhold fra populære platforme som Twitter, Reddit og YouTube, hvilket fremhæver den potentielle indflydelse af brugergenereret indhold i udformningen GPT-4's vidensbase. Derudover er der formodninger omkring inddragelsen af ekspansive samlinger som LibGen, et lager med millioner af bøger, og Sci-Hub, en platform, der giver adgang til adskillige videnskabelige artikler. Forestillingen om at GPT-4 blev trænet i hele GitHub har også cirkuleret blandt AI-entusiaster.

Journalistens udtalelse

Selvom der er mange rygter, er det vigtigt at forholde sig til disse rygter med forsigtighed. Uddannelsen af GPT-4 kan have haft stor gavn af et særligt datasæt bestående af college-lærebøger. Dette datasæt, som dækker en bred vifte af kurser og emner, kunne møjsommeligt være blevet sammensat i hånden. College lærebøger giver en struktureret og omfattende vidensbase, der med succes kan bruges til at træne en sprogmodel og let kan konverteres til tekstfiler. Medtagelsen af et sådant datasæt kan give det indtryk, at GPT-4 er vidende inden for en række forskellige områder.

Fascinationen af GPT-4's Viden

Et spændende aspekt af GPT-4's træning er dens evne til at udvise fortrolighed med specifikke bøger og endda genkalde unikke identifikatorer fra platforme som Project Euler. Forskere har forsøgt at udtrække dele af bøger udenad fra GPT-4 at få indsigt i dens træning, hvilket yderligere stimulerer nysgerrigheden om modellens indre funktioner. Disse opdagelser fremhæver den forbløffende kapacitet af GPT-4 at bevare information og understrege de imponerende muligheder i storskala sprogmodeller.

Alsidigheden af GPT-4

Det brede spektrum af emner og felter, der GPT-4 kan tilsyneladende engagere sig i fremviser dens alsidighed. Uanset om det er at besvare komplekse spørgsmål inden for datalogi eller dykke ned i filosofiske debatter, GPT-4's træning i et mangfoldigt datasæt ruster det til at interagere med brugere fra forskellige domæner. Denne alsidighed stammer fra dens eksponering for en bred vifte af tekstressourcer, hvilket gør den til et værdifuldt værktøj for en bred vifte af brugere.

Læs mere om AI:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov