Nieuwsverslag Technologie
11 juli 2023

GPT-4De gelekte details werpen licht op de enorme schaal en indrukwekkende architectuur

In het kort

De gelekte informatie over GPT-4 heeft tot opwinding geleid binnen de AI-gemeenschap. Met meer dan 10 keer de parameters van zijn voorganger, GPT-3, GPT-4 Er wordt geschat dat het 1.8 biljoen parameters bevat, verdeeld over 120 lagen.

OpenAI implementeerde een mengsel van experts (MoE) -model, gebruikmakend van 16 experts met 111 miljard parameters voor meerlaagse perceptrons (MLP). Het efficiënte inferentieproces van het model maakt gebruik van 280 miljard parameters en 560 TFLOP's per voorwaartse pass. OpenAI's toewijding aan het maximaliseren van efficiëntie en kosteneffectiviteit. De trainingsgegevensset van het model bevat 13 biljoen tokens, met fijnafstemming van 8k tot 32k.

OpenAI maakte gebruik van parallellisme GPT-4 om het volledige potentieel van hun A100 GPU's te benutten, door gebruik te maken van 8-weg tensor-parallellisme en 15-weg pijplijn-parallellisme. Het trainingsproces was uitgebreid en arbeidsintensief, met kosten variërend van $32 miljoen tot $63 miljoen.

GPT-4De inferentiekosten zijn ongeveer drie keer hoger dan die van zijn voorganger, maar het omvat ook aandacht voor meerdere vragen, continue batching en speculatieve decodering. De inferentiearchitectuur werkt op een cluster van 128 GPU's, verdeeld over meerdere datacenters.

Het recente lek van details rondom GPT-4 heeft schokgolven door de AI-gemeenschap gestuurd. De gelekte informatie, verkregen uit een geheime bron, biedt een kijkje in de ontzagwekkende mogelijkheden en ongekende schaal van dit baanbrekende model. We zullen de feiten uiteenzetten en de belangrijkste aspecten onthullen die dit maken GPT-4 een waar technologisch wonder.

GPT-4De gelekte details werpen licht op de enorme schaal en indrukwekkende architectuur
credit: Metaverse Post (mpost.io)

GPT-4Het enorme aantal parameters telt

Een van de meest opvallende onthullingen uit het lek is de enorme omvang ervan GPT-4. Het beschikt over een verbazingwekkende omvang, met meer dan 10 keer zoveel parameters als zijn voorganger, GPT-3. Er wordt geschat dat het een duizelingwekkend totaal van ongeveer 1.8 is biljoen parameters verdeeld over maar liefst 120 lagen. Daar draagt ​​deze forse schaalvergroting ongetwijfeld aan bij GPT-4's verbeterde mogelijkheden en potentieel voor baanbrekende vorderingen.

Mix van experts-model (MoE)

Om redelijke kosten te garanderen met behoud van uitzonderlijke prestaties, OpenAI heeft een Mix of Experts (MoE)-model geïmplementeerd GPT-4. Door gebruik te maken van 16 experts binnen het model, elk bestaande uit ongeveer 111 miljard parameters voor meerlaagse perceptrons (MLP), OpenAI effectief geoptimaliseerde toewijzing van middelen. Met name worden tijdens elke voorwaartse pass slechts twee experts gerouteerd, waardoor de rekenvereisten tot een minimum worden beperkt zonder de resultaten in gevaar te brengen. Deze innovatieve aanpak laat zien OpenAI's toewijding aan het maximaliseren van efficiëntie en kosteneffectiviteit in hun modellen.

Vereenvoudigd MoE-routeringsalgoritme

Terwijl het model vaak geavanceerde routeringsalgoritmen verkent voor het selecteren van experts om elk token te behandelen, OpenAI's aanpak in de huidige tijd GPT-4 Het model is naar verluidt eenvoudiger. Het routeringsalgoritme dat door de AI wordt gebruikt, zou relatief eenvoudig, maar niettemin effectief zijn. Ongeveer 55 miljard gedeelde aandachtsparameters vergemakkelijken de efficiënte distributie van tokens naar de juiste experts binnen het model.

Efficiënte gevolgtrekking

GPT-4's gevolgtrekkingsproces demonstreert zijn efficiëntie en rekenkracht. Elke voorwaartse doorgang, bedoeld voor het genereren van één token, maakt gebruik van ongeveer 280 miljard parameters en 560 TFLOP's (tera floating-point operations per second). Dit staat in schril contrast met de enorme omvang van het land GPT-4, met zijn 1.8 biljoen parameters en 3,700 TFLOP's per voorwaartse passage in een puur compact model. Het efficiënte gebruik van hulpbronnen benadrukt OpenAI's toewijding aan het bereiken van optimale prestaties zonder buitensporige rekenkundige vereisten.

Uitgebreide trainingsdataset

GPT-4 is getraind op een kolossale dataset die ongeveer 13 biljoen tokens omvat. Het is belangrijk op te merken dat deze tokens zowel unieke tokens als tokens omvatten die tijdperknummers weergeven. De trainingsproces omvat twee tijdperken voor op tekst gebaseerde gegevens en vier tijdperken voor op code gebaseerde gegevens. OpenAI maakte gebruik van miljoenen rijen instructies voor het verfijnen van gegevens afkomstig van ScaleAI en intern om de prestaties van het model te verfijnen.

Verfijning door fijnafstemming van 8K tot 32K

De pre-trainingsfase van GPT-4 gebruikte een contextlengte van 8k. Vervolgens onderging het model een finetuning, resulterend in de 32k-versie. Deze voortgang bouwt voort op de pre-trainingsfase, waardoor de mogelijkheden van het model worden vergroot en het wordt afgestemd op specifieke taken.

Schalen met GPU's via parallellisme

OpenAI maakte gebruik van de kracht van het parallellisme GPT-4 om het volledige potentieel van hun A100 GPU's te benutten. Ze gebruikten 8-weg tensor-parallellisme, wat de parallelle verwerking maximaliseert, aangezien dit de limiet is voor NVLink. Bovendien werd 15-weg parallelliteit van pijpleidingen gebruikt om de prestaties verder te verbeteren. Hoewel waarschijnlijk specifieke technieken zoals ZeRo Stage 1 werden gebruikt, blijft de exacte methodologie onbekend.

Trainingskosten en gebruiksuitdagingen

Trainingen GPT-4 was een omvangrijke en arbeidsintensieve onderneming. OpenAI ongeveer 25,000 A100 GPU's toegewezen over een periode van 90 tot 100 dagen, werkend met een bezettingsgraad van ongeveer 32% tot 36% MFU (meest gebruikte). Het trainingsproces liep talloze mislukkingen op, waardoor regelmatig opnieuw moest worden opgestart vanaf checkpoints. Indien geschat op $ 1 per A100 uur, de opleidingskosten alleen al deze run zou ongeveer $ 63 miljoen bedragen.

Afwegingen in mix van experts

Het implementeren van een mix van experts-model brengt verschillende afwegingen met zich mee. In het geval van GPT-4, OpenAI gekozen voor 16 experts in plaats van een hoger aantal. Deze beslissing weerspiegelt een balans tussen het behalen van superieure verliesresultaten en het waarborgen van generaliseerbaarheid over verschillende taken. Meer experts kunnen uitdagingen bieden op het gebied van taakgeneralisatie en convergentie. OpenAIkeuze om te sporten voorzichtigheid bij deskundige selectie sluit aan bij hun toewijding aan betrouwbare en robuuste prestaties.

Inferentie kosten

Vergeleken met zijn voorganger, het Davinci-model met 175 miljard parameters, GPT-4De inferentiekosten zijn ongeveer drie keer hoger. Deze discrepantie kan worden toegeschreven aan verschillende factoren, waaronder de grotere clusters die nodig zijn om te ondersteunen GPT-4 en het lagere gebruik dat wordt bereikt tijdens gevolgtrekking. Schattingen duiden op een geschatte kostprijs van $0.0049 cent per 1,000 tokens voor 128 A100 GPU's, en $0.0021 cent per 1,000 tokens voor 128 H100 GPU's. GPT-4 met een 8k. Deze cijfers gaan uit van een behoorlijke benutting en grote batchgroottes, cruciale overwegingen voor kostenoptimalisatie.

Aandacht voor meerdere zoekopdrachten

OpenAI maakt gebruik van multi-query-aandacht (MQA), een techniek die op grote schaal wordt toegepast in het veld GPT-4 ook. Door MQA te implementeren heeft het model slechts één kop nodig, waardoor de geheugencapaciteit die nodig is voor de sleutelwaardecache (KV-cache) aanzienlijk wordt verminderd. Ondanks deze optimalisatie moet worden opgemerkt dat de batch 32k is GPT-4 kan niet worden ondergebracht op A40 GPU's van 100 GB, en de 8k wordt beperkt door de maximale batchgrootte.

Continu batchen

Om een ​​balans te vinden tussen latency en inferentiekosten, OpenAI omvat zowel variabele batchgroottes als continue batching GPT-4. Deze adaptieve aanpak maakt flexibele en efficiënte verwerking mogelijk, optimaliseert het gebruik van hulpbronnen en vermindert de rekenkundige overhead.

Visie Multimodaal

GPT-4 introduceert een aparte vision-encoder naast de tekst-encoder, met kruisaandacht tussen de twee. Deze architectuur, die doet denken aan Flamingo, voegt extra parameters toe aan het toch al indrukwekkende aantal van 1.8 biljoen parameters GPT-4. Het visiemodel ondergaat een afzonderlijke verfijning met behulp van ongeveer 2 biljoen tokens na de pre-trainingsfase met alleen tekst. Dit visievermogen geeft kracht autonome agenten om webpagina's te lezen, afbeeldingen te transcriberen en video-inhoud te interpreteren - een onschatbare waarde in het tijdperk van multimediagegevens.

Speculatieve decodering

Een interessant aspect van GPT-4's gevolgtrekkingsstrategie is het mogelijke gebruik van speculatieve decodering. Deze aanpak omvat het gebruik van een kleinere, snellere model om vooraf voorspellingen voor meerdere tokens te genereren. Deze voorspelde tokens worden vervolgens als een enkele batch in een groter "oracle" -model ingevoerd. Als de kleinere voorspellingen van het model overeenkomen met de overeenkomst van het grotere model, kunnen verschillende tokens samen worden gedecodeerd. Als het grotere model echter de tokens afwijst die door het conceptmodel zijn voorspeld, wordt de rest van de batch weggegooid en gaat de gevolgtrekking alleen verder met het grotere model. Deze benadering maakt efficiënte decodering mogelijk terwijl mogelijk sequenties met een lagere waarschijnlijkheid worden geaccepteerd. Het is vermeldenswaard dat deze speculatie op dit moment nog niet geverifieerd is.

Inferentie-architectuur

GPT-4Het inferentieproces van het bedrijf werkt op een cluster van 128 GPU's, verdeeld over meerdere datacenters op verschillende locaties. Deze infrastructuur maakt gebruik van 8-weg tensor-parallellisme en 16-weg pijplijn-parallellisme om de rekenefficiëntie te maximaliseren. Elke node, bestaande uit 8 GPU's, biedt plaats aan ongeveer 130 miljard parameters. Met een modelgrootte van 120 lagen, GPT-4 kan in 15 verschillende knooppunten passen, mogelijk met minder lagen in het eerste knooppunt vanwege de noodzaak om inbedding te berekenen. Deze architecturale keuzes vergemakkelijken hoogwaardige gevolgtrekkingen, wat demonstreert OpenAI's inzet om de grenzen van computationele efficiëntie te verleggen.

Grootte en samenstelling van gegevensset

GPT-4 werd getraind op maar liefst 13 biljoen tokens, waardoor het beschikte over een uitgebreid corpus aan tekst om van te leren. Niet alle tokens kunnen echter worden verwerkt in de bekende datasets die tijdens de training worden gebruikt. Terwijl datasets als CommonCrawl en RefinedWeb een aanzienlijk deel van de bijdrage leveren trainingsdata, blijft er een deel van de tokens over die niet worden verantwoord, vaak aangeduid als de "geheime" gegevens.

Geruchten en speculaties

Er zijn speculaties ontstaan ​​over de oorsprong van deze geheime gegevens. Eén gerucht suggereert dat het inhoud bevat van populaire platforms zoals Twitter, Reddit en YouTube, wat de potentiële invloed benadrukt van door gebruikers gegenereerde inhoud bij het vormgeven GPT-4's kennisbank. Daarnaast bestaan ​​er vermoedens rond de opname van uitgebreide collecties zoals LibGen, een opslagplaats van miljoenen boeken, en Sci-Hub, een platform dat toegang biedt tot talloze wetenschappelijke artikelen. Het idee dat GPT-4 werd getraind op het geheel van GitHub en circuleert ook onder AI-enthousiastelingen.

De mening van de verslaggever

Hoewel er veel geruchten zijn, is het belangrijk om deze geruchten met voorzichtigheid te benaderen. De opleiding van GPT-4 kunnen veel baat hebben gehad bij een speciale dataset bestaande uit schoolboeken. Deze dataset, die een breed scala aan cursussen en onderwerpen omvat, had nauwgezet met de hand kunnen worden samengesteld. Collegeboeken bieden een gestructureerde en uitgebreide kennisbank die met succes kan worden gebruikt om een ​​taalmodel te trainen en die gemakkelijk naar tekstbestanden kan worden omgezet. Het opnemen van een dergelijke dataset zou de indruk kunnen wekken dat dit het geval is GPT-4 heeft kennis van allerlei vakgebieden.

De fascinatie voor GPT-4's Kennis

Een intrigerend aspect van GPT-4De training van de uitgever is zijn vermogen om bekendheid met specifieke boeken aan de dag te leggen en zich zelfs unieke identificatiegegevens van platforms als Project Euler te herinneren. Onderzoekers hebben geprobeerd om uit het hoofd geleerde delen van boeken te extraheren GPT-4 om inzicht te krijgen in de training ervan, waardoor de nieuwsgierigheid naar de innerlijke werking van het model verder wordt aangewakkerd. Deze ontdekkingen benadrukken het verbazingwekkende vermogen van GPT-4 om informatie vast te houden en de indrukwekkende mogelijkheden van grootschalige taalmodellen te onderstrepen.

De veelzijdigheid van GPT-4

Het brede spectrum aan onderwerpen en vakgebieden dat GPT-4 schijnbaar bezig kan zijn met demonstreert zijn veelzijdigheid. Of het nu gaat om het beantwoorden van complexe vragen in de informatica of het verdiepen in filosofische debatten, GPT-4De training van een diverse dataset stelt het in staat om met gebruikers uit verschillende domeinen in contact te komen. Deze veelzijdigheid komt voort uit de blootstelling aan een breed scala aan tekstuele bronnen, waardoor het een waardevol hulpmiddel is voor een breed scala aan gebruikers.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
NuLink wordt gelanceerd op Bybit Web3 IDO-platform. Abonnementsfase wordt verlengd tot 13 mei
Markten Nieuwsverslag Technologie
NuLink wordt gelanceerd op Bybit Web3 IDO-platform. Abonnementsfase wordt verlengd tot 13 mei
9 mei 2024
UXLINK en Binance werken samen aan nieuwe campagne en bieden gebruikers 20 miljoen UXUY-punten en Airdrop Beloningen
Markten Nieuwsverslag Technologie
UXLINK en Binance werken samen aan nieuwe campagne en bieden gebruikers 20 miljoen UXUY-punten en Airdrop Beloningen
9 mei 2024
Side Protocol lanceert een gestimuleerd testnet en introduceert een Insider Point-systeem, waardoor gebruikers SIDE-punten kunnen verdienen
Markten Nieuwsverslag Technologie
Side Protocol lanceert een gestimuleerd testnet en introduceert een Insider Point-systeem, waardoor gebruikers SIDE-punten kunnen verdienen
9 mei 2024
Web3 en Crypto-evenementen in mei 2024: onderzoek naar nieuwe technologieën en opkomende trends in Blockchain en DeFi
Verteren Business Markten Technologie
Web3 en Crypto-evenementen in mei 2024: onderzoek naar nieuwe technologieën en opkomende trends in Blockchain en DeFi
9 mei 2024