２０２２年７月１１日

GPT-4の漏洩された詳細がその巨大な規模と印象的な建築に光を当てる

by ダミル・ヤラロフ

公開日: 11 年 2023 月 7 日午前 19:11 更新日: 2023 年 7 月 23 日午前 XNUMX:XNUMX

by ダニル・ミャキン

編集および事実確認: 11 年 2023 月 7 日午前 19:XNUMX

簡単に言えば

流出した情報については、 GPT-4 AI コミュニティの興奮を引き起こしました。前作の10倍以上のパラメータを備え、 GPT-3, GPT-4 1.8 兆のパラメータが 120 のレイヤーに分散されていると推定されます。

OpenAI は、多層パーセプトロン (MLP) の 16 億パラメータを持つ 111 人の専門家を利用する、専門家混合 (MoE) モデルを実装しました。モデルの効率的な推論プロセスでは、フォワードパスごとに 280 億のパラメーターと 560 TFLOP が利用されており、これが実証されています。 OpenAIの効率性と費用対効果の最大化への取り組み。モデルのトレーニングデータセットには 13 兆のトークンが含まれており、8 から 32 まで微調整されています。

OpenAI 並列処理を利用した GPT-4 100 方向のテンソル並列処理と 8 方向のパイプライン並列処理を採用し、A15 GPU の可能性を最大限に活用します。トレーニングプロセスは大規模でリソースを大量に消費し、費用は 32 万ドルから 63 万ドルに及びました。

GPT-4の推論コストは以前のものより約 128 倍高くなりますが、マルチクエリアテンション、連続バッチ処理、および投機的デコードも組み込まれています。推論アーキテクチャは、複数のデータセンターに分散された XNUMX 個の GPU のクラスター上で動作します。

最近の詳細情報のリーク GPT-4 AI コミュニティに衝撃を与えました。非公開の情報源から入手したリーク情報は、この画期的なモデルの畏怖の念を抱かせる機能と前例のない規模を垣間見ることができます。事実を分析し、その重要な側面を明らかにします。 GPT-4 まさに技術の驚異。

GPT-4の漏洩された詳細がその大規模さと印象的な建築に光を当てる — クレジット： Metaverse Post (mpost.io)

GPT-4の膨大なパラメータ数

リークから明らかになった最も印象的なものの XNUMX つは、その規模の大きさです。 GPT-4。前モデルの10倍以上の驚異的なサイズを誇り、 GPT-3。その合計は約1.8という驚異的な数であると推定されています。兆パラメータ印象的な 120 のレイヤーに分散されています。この大幅な規模の拡大は間違いなく、 GPT-4の強化された機能そして画期的な進歩の可能性。

専門家混合モデル (MoE)

優れたパフォーマンスを維持しながら合理的なコストを確保するには、 OpenAI 専門家混合（MoE）モデルを実装しました GPT-4。モデル内で 16 人の専門家を利用することで、各専門家は多層パーセプトロン (MLP) の約 111 億のパラメーターで構成され、 OpenAI 効果的に最適化されたリソース割り当て。特に、各前方パス中に XNUMX 人のエキスパートのみがルーティングされるため、結果を損なうことなく計算要件が最小限に抑えられます。この革新的なアプローチは、 OpenAIは、モデルの効率と費用対効果を最大化することに取り組んでいます。

非常に興味深く詳細なリーク情報 GPT-4 アーキテクチャの背後にある理由とその影響についての優れた分析を含む – by @ディラン522p :https://t.co/eHE7VlGY5V

ペイウォールを使用しない概要は次の場所にあります。 https://t.co/rLxw5s9ZDt
— ジャン・P・ハリーズ (@jphme) ２０２２年７月１１日

簡素化された MoE ルーティングアルゴリズム

このモデルでは、各トークンを処理する専門家を選択するための高度なルーティングアルゴリズムを検討することがよくありますが、 OpenAI現在ののアプローチ GPT-4 伝えられるところによると、モデルはより単純です。 AI が採用するルーティングアルゴリズムは比較的シンプルであると言われていますが、それでも効果的です。注意のための約 55 億の共有パラメータにより、モデル内の適切な専門家へのトークンの効率的な配布が容易になります。

効率的な推論

GPT-4の推論プロセスは、その効率性と計算能力を示しています。単一のトークンの生成専用の各フォワードパスでは、約 280 億のパラメーターと 560 TFLOP (XNUMX 秒あたりのテラ浮動小数点演算) が使用されます。これは、その巨大な規模とはまったく対照的です。 GPT-4、純粋に高密度のモデルで 1.8 兆のパラメータと順方向パスあたり 3,700 TFLOP を備えています。リソースの効率的な使用のハイライト OpenAIは、過度の計算要件を必要とせずに最適なパフォーマンスを達成することに尽力しています。

広範なトレーニングデータセット

GPT-4 は、約 13 兆のトークンで構成される巨大なデータセットでトレーニングされています。これらのトークンには、一意のトークンとエポック番号を表すトークンの両方が含まれることに注意することが重要です。のトレーニングプロセスには、テキストベースのデータの XNUMX つのエポックと、コードベースのデータの XNUMX つのエポックが含まれます。 OpenAI ScaleAI と内部から取得した数百万行の命令微調整データを活用して、モデルのパフォーマンスを調整しました。

トレーニング前の段階では、 GPT-4 8k コンテキスト長を採用しました。その後、モデルは微調整され、32k バージョンが完成しました。この進行は事前トレーニング段階に基づいて構築され、モデルの機能が強化され、特定のタスクに合わせて調整されます。

並列処理による GPU によるスケーリング

OpenAI 並列処理の力を活用した GPT-4 A100 GPU の可能性を最大限に活用します。 NVLink の制限である並列処理を最大化する 8 ウェイテンソル並列処理を採用しました。さらに、15 ウェイのパイプライン並列処理を利用して、パフォーマンスをさらに向上させました。 ZeRo Stage 1 などの特定の技術が使用された可能性がありますが、正確な方法論は未公開のままです。

トレーニングのコストと活用の課題

トレーニング GPT-4 これは大規模でリソースを大量に消費する取り組みでした。 OpenAI 25,000 ～ 100 日間で約 90 個の A100 GPU が割り当てられ、約 32% ～ 36% MFU (最も頻繁に使用される) の使用率で動作します。トレーニングプロセスでは多数の失敗が発生し、チェックポイントから頻繁に再起動する必要がありました。 A1 時間あたり 100 ドルと見積もると、研修費用この実行だけでも約 63 万ドルに達します。

専門家の混合におけるトレードオフ

専門家の混合モデルを実装すると、いくつかのトレードオフが発生します。の場合 GPT-4, OpenAI それ以上の数ではなく、16 人の専門家を選択しました。この決定は、優れた損失結果の達成と、さまざまなタスクにわたる汎用性の確保との間のバランスを反映しています。タスクの一般化と収束に関して、より多くの専門家が課題を提示できる可能性があります。 OpenAI運動するという選択専門家は注意この選択は、信頼性が高く堅牢なパフォーマンスに対する同社の取り組みと一致しています。

推論コスト

前世代の 175 億パラメータの Davinci モデルと比較すると、 GPT-4の推論コストは約 XNUMX 倍になります。この不一致は、サポートに必要な大規模なクラスターなど、いくつかの要因に起因する可能性があります。 GPT-4 そして、推論中に達成される使用率が低くなります。推定コストは、0.0049 個の A1,000 GPU の場合は 128 トークンあたり 100 セント、0.0021 個の H1,000 GPU の場合は 128 トークンあたり 100 セントと推定されます。 GPT-4 8kで。これらの数値は、コスト最適化にとって重要な考慮事項である適切な使用率と高いバッチサイズを前提としています。

マルチクエリアテンション

OpenAI 現場で広く採用されている技術であるマルチクエリーアテンション (MQA) を活用します。 GPT-4 同じように。 MQA を実装することにより、モデルに必要なヘッドは 32 つだけになり、キーバリューキャッシュ (KV キャッシュ) に必要なメモリ容量が大幅に削減されます。この最適化にもかかわらず、XNUMXk バッチは GPT-4 40GB A100 GPU には対応できず、8k は最大バッチサイズによって制限されます。

連続バッチ処理

レイテンシーと推論コストのバランスを取るには、 OpenAI 可変バッチサイズと連続バッチ処理の両方を組み込みます。 GPT-4。この適応的なアプローチにより、柔軟で効率的な処理が可能になり、リソース使用率が最適化され、計算オーバーヘッドが削減されます。

GPT-4 では、テキストエンコーダとは別にビジョンエンコーダを導入し、1.8 つのエンコーダ間の相互注意を特徴としています。 Flamingo を彷彿とさせるこのアーキテクチャは、すでに XNUMX 兆 XNUMX 億という驚異的なパラメータ数にさらにパラメータを追加します。 GPT-4。ビジョンモデルは、テキストのみの事前トレーニングフェーズに続いて、約 2 兆のトークンを使用して個別に微調整されます。この視覚能力により、自律エージェント Web ページの読み取り、画像の転写、ビデオコンテンツの解釈など、マルチメディアデータの時代における貴重な資産です。

投機的デコード

の興味深い側面 GPT-4の推論戦略は、推測的デコードの使用の可能性です。このアプローチには、より小型で高速なシステムの採用が含まれます。複数のトークンの予測を事前に生成します。これらの予測されたトークンは、単一のバッチとしてより大きな「オラクル」モデルに供給されます。小さい方の場合モデルの予測より大きなモデルの合意に合わせて、複数のトークンを一緒にデコードできます。ただし、より大きなモデルがドラフトモデルによって予測されたトークンを拒否した場合、残りのバッチは破棄され、より大きなモデルのみを使用して推論が続行されます。このアプローチにより、より低い確率のシーケンスを潜在的に受け入れながら、効率的なデコードが可能になります。現時点ではこの推測はまだ検証されていないことに注意してください。

推論アーキテクチャ

GPT-4の推論プロセスは、異なる場所にある複数のデータセンターに分散された 128 個の GPU のクラスター上で動作します。このインフラストラクチャは、計算効率を最大化するために 8 方向のテンソル並列処理と 16 方向のパイプライン並列処理を採用しています。各ノードは 8 つの GPU で構成され、約 130 億のパラメータに対応します。モデルサイズは120レイヤーで、 GPT-4 15 の異なるノード内に収まりますが、埋め込みを計算する必要があるため、最初のノードの層が少なくなる可能性があります。これらのアーキテクチャ上の選択により、高パフォーマンスの推論が促進され、次のことが実証されます。 OpenAIの計算効率の限界を押し上げる取り組み。

データセットのサイズと構成

GPT-4 は 13 兆個ものトークンを使ってトレーニングされており、学習するための広範なテキストのコーパスが提供されています。ただし、トレーニング中に使用される既知のデータセットによってすべてのトークンを説明できるわけではありません。 CommonCrawl や RefinedWeb などのデータセットは、トレーニングデータ、多くの場合「秘密」データと呼ばれる、不明なトークンの一部が残っています。

噂と憶測

この未公開データの出所に関する憶測が浮上している。ある噂では、Twitter、Reddit、YouTube などの人気プラットフォームのコンテンツが含まれていると示唆されており、ユーザー作成コンテンツが形成に及ぼす影響の可能性を浮き彫りにしています。 GPT-4のナレッジベース。さらに、数百万冊の書籍のリポジトリである LibGen や、多数の科学論文へのアクセスを提供するプラットフォームである Sci-Hub のような広範なコレクションが含まれるかどうかについての憶測もあります。という概念 GPT-4 GitHub 全体でトレーニングされたものは、AI 愛好家の間でも広まりました。

記者の意見

噂はたくさんありますが、これらの噂には慎重に対処することが重要です。のトレーニング GPT-4 大学の教科書で構成された特別なデータセットから大きな恩恵を受けた可能性があります。このデータセットは幅広いコースや主題をカバーしており、手作業で丹念に組み立てられた可能性があります。大学の教科書は、言語モデルのトレーニングに使用でき、簡単にテキストファイルに変換できる、構造化された包括的な知識ベースを提供します。このようなデータセットが含まれると、次のような印象を与える可能性があります。 GPT-4 さまざまな分野に精通しています。

の魅力 GPT-4さんの知識

の興味深い側面の XNUMX つは、 GPT-4のトレーニングは、特定の書籍に精通していることを示し、Project Euler などのプラットフォームからの一意の識別子さえも思い出す能力です。研究者たちは、本の暗記部分を抽出しようと試みてきました。 GPT-4 トレーニングに関する洞察が得られ、モデルの内部動作についての好奇心がさらに高まります。これらの発見は、 GPT-4 情報を保持し、大規模な言語モデルの優れた機能を強調します。

多用途性 GPT-4

幅広いトピックと分野 GPT-4 一見するとその多用途性を示しています。コンピューターサイエンスの複雑な質問に答える場合でも、哲学的な議論を掘り下げる場合でも、 GPT-4の多様なデータセットでのトレーニングにより、さまざまなドメインのユーザーと関わることができるようになります。この多用途性は、膨大な数のテキストリソースを利用できることから生まれており、幅広いユーザーにとって貴重なツールとなっています。

AI について詳しく読む:

タグ：

免責事項

に沿ってトラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポートページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。

より多くの記事

ダミル・ヤラロフ