11. Juli 2023

GPT-4Durchgesickerte Details geben Aufschluss über seine gewaltige Größe und beeindruckende Architektur

Veröffentlicht: 11. Juli 2023 um 7:19 Uhr. Aktualisiert: 11. Juli 2023 um 7:23 Uhr

Bearbeitet und faktengeprüft: 11. Juli 2023 um 7:19 Uhr

In Kürze

Die durchgesickerten Informationen über GPT-4 hat in der KI-Community für Aufregung gesorgt. Mit mehr als dem Zehnfachen der Parameter seines Vorgängers GPT-3, GPT-4 wird auf 1.8 Billionen Parameter geschätzt, die auf 120 Schichten verteilt sind.

OpenAI implementierte ein Mix-of-Experts-Modell (MoE), das 16 Experten mit 111 Milliarden Parametern für mehrschichtige Perzeptrone (MLP) nutzte. Der effiziente Inferenzprozess des Modells nutzt 280 Milliarden Parameter und 560 TFLOPs pro Vorwärtsdurchlauf OpenAIist das Bestreben, Effizienz und Kosteneffizienz zu maximieren. Der Trainingsdatensatz des Modells umfasst 13 Billionen Token mit einer Feinabstimmung von 8 auf 32.

OpenAI verwendete Parallelität in GPT-4 um das volle Potenzial ihrer A100-GPUs auszuschöpfen, indem sie 8-Wege-Tensor-Parallelität und 15-Wege-Pipeline-Parallelität nutzen. Der Schulungsprozess war umfangreich und ressourcenintensiv, die Kosten lagen zwischen 32 und 63 Millionen US-Dollar.

GPT-4Die Inferenzkosten sind etwa dreimal höher als beim Vorgänger, aber es umfasst auch die Aufmerksamkeit für mehrere Abfragen, kontinuierliche Stapelverarbeitung und spekulative Dekodierung. Die Inferenzarchitektur basiert auf einem Cluster von 128 GPUs, die über mehrere Rechenzentren verteilt sind.

Das jüngste Durchsickern von Details rund um GPT-4 hat Schockwellen durch die KI-Community geschickt. Die durchgesickerten Informationen, die aus einer unbekannten Quelle stammen, geben einen Einblick in die beeindruckenden Fähigkeiten und das beispiellose Ausmaß dieses bahnbrechenden Modells. Wir werden die Fakten aufschlüsseln und die wichtigsten Aspekte enthüllen, die dazu führen GPT-4 ein wahres Wunderwerk der Technik.

GPT-4Durchgesickerte Details geben Aufschluss über seine gewaltige Größe und beeindruckende Architektur — Kredit: Metaverse Post (mpost.io)

GPT-4Die massiven Parameter zählen

Eine der auffälligsten Enthüllungen aus dem Leck ist das schiere Ausmaß GPT-4. Es verfügt über eine erstaunliche Größe und mehr als das Zehnfache der Parameter seines Vorgängers. GPT-3. Es wird geschätzt, dass die Gesamtzahl bei ungefähr 1.8 liegt Billionen Parameter verteilt auf beeindruckende 120 Schichten. Diese erhebliche Vergrößerung trägt zweifellos dazu bei GPT-4's erweiterte Fähigkeiten und Potenzial für bahnbrechende Fortschritte.

Expertenmischungsmodell (MoE)

Um angemessene Kosten zu gewährleisten und gleichzeitig eine außergewöhnliche Leistung aufrechtzuerhalten, OpenAI implementierte ein Mix-of-Experts-Modell (MoE). GPT-4. Durch den Einsatz von 16 Experten innerhalb des Modells, die jeweils aus rund 111 Milliarden Parametern für mehrschichtige Perzeptrone (MLP) bestehen, OpenAI effektiv optimierte Ressourcenallokation. Bemerkenswert ist, dass bei jedem Vorwärtsdurchlauf nur zwei Experten weitergeleitet werden, wodurch der Rechenaufwand minimiert wird, ohne die Ergebnisse zu beeinträchtigen. Dieser innovative Ansatz zeigt OpenAIist das Engagement für die Maximierung der Effizienz und Kosteneffizienz ihrer Modelle.

Sehr interessantes und detailliertes Leck des GPT-4 Architektur, mit hervorragender Analyse der dahinter stehenden Überlegungen und ihrer Implikationen – von @dylan522p :https://t.co/eHE7VlGY5V

Eine Zusammenfassung ohne Paywall finden Sie hier: https://t.co/rLxw5s9ZDt
— Jan P. Harries (@jphme) 11. Juli 2023

Vereinfachter MoE-Routing-Algorithmus

Während das Modell häufig erweiterte Routing-Algorithmen zur Auswahl von Experten für die Handhabung jedes Tokens untersucht, OpenAI's Ansatz in der aktuellen GPT-4 Das Modell ist angeblich einfacher. Der von der KI verwendete Routing-Algorithmus soll relativ einfach, aber dennoch effektiv sein. Ungefähr 55 Milliarden gemeinsame Aufmerksamkeitsparameter erleichtern die effiziente Verteilung von Token an die entsprechenden Experten innerhalb des Modells.

Effiziente Schlussfolgerung

GPT-4Der Inferenzprozess von stellt seine Effizienz und Rechenleistung unter Beweis. Jeder Vorwärtsdurchlauf, der der Generierung eines einzelnen Tokens gewidmet ist, nutzt etwa 280 Milliarden Parameter und 560 TFLOPs (Tera-Gleitkommaoperationen pro Sekunde). Dies steht in krassem Gegensatz zum immensen Ausmaß von GPT-4, mit seinen 1.8 Billionen Parametern und 3,700 TFLOPs pro Vorwärtsdurchlauf in einem rein dichten Modell. Der effiziente Einsatz von Ressourcen wird hervorgehoben OpenAIs Engagement für die Erzielung optimaler Leistung ohne übermäßige Rechenanforderungen.

Umfangreicher Trainingsdatensatz

GPT-4 wurde anhand eines riesigen Datensatzes trainiert, der etwa 13 Billionen Token umfasst. Es ist wichtig zu beachten, dass diese Token sowohl eindeutige Token als auch Token umfassen, die Epochennummern berücksichtigen. Der Trainingsprozess umfasst zwei Epochen für textbasierte Daten und vier Epochen für codebasierte Daten. OpenAI nutzte Millionen Zeilen an Befehlsfeinabstimmungsdaten, die von ScaleAI und intern stammen, um die Leistung des Modells zu verfeinern.

Die Vortrainingsphase von GPT-4 verwendete eine Kontextlänge von 8 KB. Anschließend wurde das Modell einer Feinabstimmung unterzogen, wodurch die 32k-Version entstand. Dieser Fortschritt baut auf der Vortrainingsphase auf, verbessert die Fähigkeiten des Modells und passt es an bestimmte Aufgaben an.

Skalierung mit GPUs über Parallelität

OpenAI nutzte die Kraft der Parallelität in GPT-4 um das volle Potenzial ihrer A100-GPUs auszuschöpfen. Sie verwendeten eine 8-Wege-Tensor-Parallelität, die die Parallelverarbeitung maximiert, da dies die Grenze für NVLink darstellt. Darüber hinaus wurde die 15-Wege-Pipeline-Parallelität genutzt, um die Leistung weiter zu verbessern. Während wahrscheinlich spezifische Techniken wie ZeRo Stage 1 eingesetzt wurden, bleibt die genaue Methodik unbekannt.

Schulungskosten und Herausforderungen bei der Nutzung

Ausbildung GPT-4 war ein umfangreiches und ressourcenintensives Unterfangen. OpenAI hat über einen Zeitraum von 25,000 bis 100 Tagen etwa 90 A100-GPUs zugewiesen und arbeitet mit einer Auslastungsrate von etwa 32 % bis 36 % MFU (am häufigsten verwendet). Beim Training kam es zu zahlreichen Fehlern, die häufige Neustarts an Kontrollpunkten erforderlich machten. Bei einer Schätzung von 1 US-Dollar pro A100-Stunde beträgt der Ausbildungskosten Allein dieser Lauf würde sich auf etwa 63 Millionen US-Dollar belaufen.

Kompromisse im Expertenmix

Die Implementierung eines Expertenmischungsmodells bringt mehrere Kompromisse mit sich. Im Fall von GPT-4, OpenAI statt einer höheren Zahl für 16 Experten entschieden. Diese Entscheidung spiegelt ein Gleichgewicht zwischen der Erzielung überlegener Verlustergebnisse und der Gewährleistung der Generalisierbarkeit über verschiedene Aufgaben hinweg wider. Mehr Experten können Herausforderungen im Hinblick auf die Generalisierung und Konvergenz von Aufgaben darstellen. OpenAIDie Entscheidung, Sport zu treiben Vorsicht bei Experten Die Auswahl steht im Einklang mit ihrem Engagement für zuverlässige und robuste Leistung.

Inferenzkosten

Im Vergleich zu seinem Vorgänger, dem Davinci-Modell mit 175 Milliarden Parametern, GPT-4Die Inferenzkosten sind etwa dreimal höher. Diese Diskrepanz kann auf mehrere Faktoren zurückgeführt werden, einschließlich der größeren Cluster, die zur Unterstützung erforderlich sind GPT-4 und die geringere Auslastung, die während der Inferenz erreicht wird. Schätzungen gehen von ungefähren Kosten von 0.0049 US-Dollar pro 1,000 Token für 128 A100-GPUs und 0.0021 US-Dollar pro 1,000 Token für 128 H100-GPUs aus GPT-4 mit einem 8k. Diese Zahlen setzen eine angemessene Auslastung und hohe Losgrößen voraus, wichtige Überlegungen zur Kostenoptimierung.

Aufmerksamkeit bei mehreren Abfragen

OpenAI nutzt Multi-Query Attention (MQA), eine in diesem Bereich weit verbreitete Technik, in GPT-4 sowie. Durch die Implementierung von MQA benötigt das Modell nur einen Kopf, wodurch die für den Schlüsselwert-Cache (KV-Cache) erforderliche Speicherkapazität erheblich reduziert wird. Trotz dieser Optimierung ist zu beachten, dass der 32k-Batch GPT-4 kann nicht auf 40-GB-A100-GPUs untergebracht werden, und die 8 KB sind durch die maximale Stapelgröße eingeschränkt.

Kontinuierliche Dosierung

Um ein Gleichgewicht zwischen Latenz und Inferenzkosten zu finden, OpenAI umfasst sowohl variable Chargengrößen als auch kontinuierliche Dosierung GPT-4. Dieser adaptive Ansatz ermöglicht eine flexible und effiziente Verarbeitung, optimiert die Ressourcennutzung und reduziert den Rechenaufwand.

GPT-4 führt neben dem Text-Encoder einen separaten Vision-Encoder ein, der die gegenseitige Aufmerksamkeit zwischen den beiden ermöglicht. Diese an Flamingo erinnernde Architektur fügt der bereits beeindruckenden Parameterzahl von 1.8 Billionen zusätzliche Parameter hinzu GPT-4. Das Vision-Modell wird im Anschluss an die Nur-Text-Vortrainingsphase einer separaten Feinabstimmung mit etwa 2 Billionen Token unterzogen. Diese Visionsfähigkeit stärkt autonome Agenten um Webseiten zu lesen, Bilder zu transkribieren und Videoinhalte zu interpretieren – ein unschätzbarer Vorteil im Zeitalter multimedialer Daten.

Spekulative Dekodierung

Ein interessanter Aspekt von GPT-4Die Inferenzstrategie von ist die mögliche Verwendung spekulativer Dekodierung. Dieser Ansatz beinhaltet den Einsatz eines kleineren, schnelleren Modell um Vorhersagen für mehrere Token im Voraus zu generieren. Diese vorhergesagten Token werden dann als einzelner Stapel in ein größeres „Orakel“-Modell eingespeist. Wenn der kleinere Vorhersagen des Modells Im Einklang mit der Vereinbarung des größeren Modells können mehrere Token gemeinsam dekodiert werden. Wenn das größere Modell jedoch die vom Entwurfsmodell vorhergesagten Token ablehnt, wird der Rest des Stapels verworfen und die Schlussfolgerung wird ausschließlich mit dem größeren Modell fortgesetzt. Dieser Ansatz ermöglicht eine effiziente Dekodierung und akzeptiert möglicherweise Sequenzen mit geringerer Wahrscheinlichkeit. Es ist erwähnenswert, dass diese Spekulation derzeit noch unbestätigt ist.

Inferenzarchitektur

GPT-4Der Inferenzprozess läuft auf einem Cluster von 128 GPUs, die über mehrere Rechenzentren an verschiedenen Standorten verteilt sind. Diese Infrastruktur nutzt 8-Wege-Tensor-Parallelität und 16-Wege-Pipeline-Parallelität, um die Recheneffizienz zu maximieren. Jeder Knoten, bestehend aus 8 GPUs, beherbergt etwa 130 Milliarden Parameter. Bei einer Modellgröße von 120 Schichten GPT-4 kann in 15 verschiedene Knoten passen, möglicherweise mit weniger Schichten im ersten Knoten, da Einbettungen berechnet werden müssen. Diese architektonischen Entscheidungen ermöglichen eine leistungsstarke Schlussfolgerung und Demonstration OpenAIist das Engagement, die Grenzen der Recheneffizienz zu verschieben.

Größe und Zusammensetzung des Datensatzes

GPT-4 wurde auf beeindruckenden 13 Billionen Token trainiert, was ihm einen umfangreichen Textkorpus zum Lernen zur Verfügung stellte. Allerdings können nicht alle Token durch die bekannten Datensätze, die während des Trainings verwendet werden, berücksichtigt werden. Während Datensätze wie CommonCrawl und RefinedWeb einen erheblichen Teil dazu beitragen TrainingsdatenEs verbleibt ein Teil der nicht erfassten Token, der oft als „geheime“ Daten bezeichnet wird.

Gerüchte und Spekulationen

Es sind Spekulationen über die Herkunft dieser nicht veröffentlichten Daten aufgetaucht. Ein Gerücht besagt, dass darin Inhalte von beliebten Plattformen wie Twitter, Reddit und YouTube enthalten sind, was den potenziellen Einfluss benutzergenerierter Inhalte auf die Gestaltung unterstreicht GPT-4's Wissensdatenbank. Darüber hinaus gibt es Vermutungen über die Einbeziehung umfangreicher Sammlungen wie LibGen, einer Sammlung von Millionen Büchern, und Sci-Hub, einer Plattform, die Zugang zu zahlreichen wissenschaftlichen Arbeiten bietet. Die Vorstellung, dass GPT-4 wurde auf dem gesamten GitHub trainiert und ist auch unter KI-Enthusiasten im Umlauf.

Die Meinung des Reporters

Obwohl es viele Gerüchte gibt, ist es wichtig, mit diesen Gerüchten vorsichtig umzugehen. Die Ausbildung von GPT-4 könnte stark von einem speziellen Datensatz aus Hochschullehrbüchern profitiert haben. Dieser Datensatz, der ein breites Spektrum an Studiengängen und Fächern abdeckt, hätte in mühevoller Handarbeit zusammengestellt werden können. Hochschullehrbücher bieten eine strukturierte und umfassende Wissensbasis, die erfolgreich zum Trainieren eines Sprachmodells verwendet werden kann und leicht in Textdateien konvertiert werden kann. Die Aufnahme eines solchen Datensatzes könnte den Eindruck erwecken, dass dies der Fall ist GPT-4 verfügt über Kenntnisse in verschiedenen Bereichen.

Die Faszination mit GPT-4's Wissen

Ein faszinierender Aspekt von GPT-4Das Training von ist seine Fähigkeit, Vertrautheit mit bestimmten Büchern zu zeigen und sich sogar eindeutige Identifikatoren von Plattformen wie Project Euler zu merken. Forscher haben versucht, auswendig gelernte Buchabschnitte daraus zu extrahieren GPT-4 um Einblicke in sein Training zu gewinnen und so die Neugier auf das Innenleben des Modells weiter zu wecken. Diese Entdeckungen unterstreichen die erstaunliche Leistungsfähigkeit von GPT-4 um Informationen zu speichern und die beeindruckenden Fähigkeiten großer Sprachmodelle zu unterstreichen.

Die Vielseitigkeit von GPT-4

Das breite Spektrum an Themen und Bereichen, die GPT-4 sich scheinbar engagieren kann, zeigt seine Vielseitigkeit. Ob es darum geht, komplexe Fragen der Informatik zu beantworten oder sich in philosophische Debatten zu vertiefen, GPT-4Durch die Schulung an einem vielfältigen Datensatz ist das Unternehmen in der Lage, mit Benutzern aus verschiedenen Bereichen in Kontakt zu treten. Diese Vielseitigkeit ergibt sich aus der Nutzung einer Vielzahl von Textressourcen und macht es zu einem wertvollen Werkzeug für ein breites Spektrum von Benutzern.

Lesen Sie mehr über KI:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.