GPT-4の漏洩された詳細がその巨大な規模と印象的な建築に光を当てる
簡単に言えば
流出した情報については、 GPT-4 AI コミュニティの興奮を引き起こしました。 前作の10倍以上のパラメータを備え、 GPT-3, GPT-4 1.8 兆のパラメータが 120 のレイヤーに分散されていると推定されます。
OpenAI は、多層パーセプトロン (MLP) の 16 億パラメータを持つ 111 人の専門家を利用する、専門家混合 (MoE) モデルを実装しました。 モデルの効率的な推論プロセスでは、フォワード パスごとに 280 億のパラメーターと 560 TFLOP が利用されており、これが実証されています。 OpenAIの効率性と費用対効果の最大化への取り組み。 モデルのトレーニング データセットには 13 兆のトークンが含まれており、8 から 32 まで微調整されています。
OpenAI 並列処理を利用した GPT-4 100 方向のテンソル並列処理と 8 方向のパイプライン並列処理を採用し、A15 GPU の可能性を最大限に活用します。 トレーニング プロセスは大規模でリソースを大量に消費し、費用は 32 万ドルから 63 万ドルに及びました。
GPT-4の推論コストは以前のものより約 128 倍高くなりますが、マルチクエリ アテンション、連続バッチ処理、および投機的デコードも組み込まれています。 推論アーキテクチャは、複数のデータセンターに分散された XNUMX 個の GPU のクラスター上で動作します。
最近の詳細情報のリーク GPT-4 AI コミュニティに衝撃を与えました。 非公開の情報源から入手したリーク情報は、この画期的なモデルの畏怖の念を抱かせる機能と前例のない規模を垣間見ることができます。 事実を分析し、その重要な側面を明らかにします。 GPT-4 まさに技術の驚異。
GPT-4の膨大なパラメータ数
リークから明らかになった最も印象的なものの XNUMX つは、その規模の大きさです。 GPT-4。 前モデルの10倍以上の驚異的なサイズを誇り、 GPT-3。 その合計は約1.8という驚異的な数であると推定されています。 兆パラメータ 印象的な 120 のレイヤーに分散されています。 この大幅な規模の拡大は間違いなく、 GPT-4の強化された機能 そして画期的な進歩の可能性。
専門家混合モデル (MoE)
優れたパフォーマンスを維持しながら合理的なコストを確保するには、 OpenAI 専門家混合(MoE)モデルを実装しました GPT-4。 モデル内で 16 人の専門家を利用することで、各専門家は多層パーセプトロン (MLP) の約 111 億のパラメーターで構成され、 OpenAI 効果的に最適化されたリソース割り当て。 特に、各前方パス中に XNUMX 人のエキスパートのみがルーティングされるため、結果を損なうことなく計算要件が最小限に抑えられます。 この革新的なアプローチは、 OpenAIは、モデルの効率と費用対効果を最大化することに取り組んでいます。
非常に興味深く詳細なリーク情報 GPT-4 アーキテクチャの背後にある理由とその影響についての優れた分析を含む – by @ディラン522p :https://t.co/eHE7VlGY5V
— ジャン・P・ハリーズ (@jphme) 2022年7月11日
ペイウォールを使用しない概要は次の場所にあります。 https://t.co/rLxw5s9ZDt
簡素化された MoE ルーティング アルゴリズム
このモデルでは、各トークンを処理する専門家を選択するための高度なルーティング アルゴリズムを検討することがよくありますが、 OpenAI現在の のアプローチ GPT-4 伝えられるところによると、モデルはより単純です。 AI が採用するルーティング アルゴリズムは比較的シンプルであると言われていますが、それでも効果的です。 注意のための約 55 億の共有パラメータにより、モデル内の適切な専門家へのトークンの効率的な配布が容易になります。
効率的な推論
GPT-4の推論プロセスは、その効率性と計算能力を示しています。 単一のトークンの生成専用の各フォワード パスでは、約 280 億のパラメーターと 560 TFLOP (XNUMX 秒あたりのテラ浮動小数点演算) が使用されます。 これは、その巨大な規模とはまったく対照的です。 GPT-4、純粋に高密度のモデルで 1.8 兆のパラメータと順方向パスあたり 3,700 TFLOP を備えています。 リソースの効率的な使用のハイライト OpenAIは、過度の計算要件を必要とせずに最適なパフォーマンスを達成することに尽力しています。
広範なトレーニング データセット
GPT-4 は、約 13 兆のトークンで構成される巨大なデータセットでトレーニングされています。 これらのトークンには、一意のトークンとエポック番号を表すトークンの両方が含まれることに注意することが重要です。 の トレーニングプロセス には、テキストベースのデータの XNUMX つのエポックと、コードベースのデータの XNUMX つのエポックが含まれます。 OpenAI ScaleAI と内部から取得した数百万行の命令微調整データを活用して、モデルのパフォーマンスを調整しました。
8Kから32Kまでの微調整による洗練
トレーニング前の段階では、 GPT-4 8k コンテキスト長を採用しました。 その後、モデルは微調整され、32k バージョンが完成しました。 この進行は事前トレーニング段階に基づいて構築され、モデルの機能が強化され、特定のタスクに合わせて調整されます。
並列処理による GPU によるスケーリング
OpenAI 並列処理の力を活用した GPT-4 A100 GPU の可能性を最大限に活用します。 NVLink の制限である並列処理を最大化する 8 ウェイ テンソル並列処理を採用しました。 さらに、15 ウェイのパイプライン並列処理を利用して、パフォーマンスをさらに向上させました。 ZeRo Stage 1 などの特定の技術が使用された可能性がありますが、正確な方法論は未公開のままです。
トレーニングのコストと活用の課題
トレーニング GPT-4 これは大規模でリソースを大量に消費する取り組みでした。 OpenAI 25,000 ~ 100 日間で約 90 個の A100 GPU が割り当てられ、約 32% ~ 36% MFU (最も頻繁に使用される) の使用率で動作します。 トレーニング プロセスでは多数の失敗が発生し、チェックポイントから頻繁に再起動する必要がありました。 A1 時間あたり 100 ドルと見積もると、 研修費用 この実行だけでも約 63 万ドルに達します。
専門家の混合におけるトレードオフ
専門家の混合モデルを実装すると、いくつかのトレードオフが発生します。 の場合 GPT-4, OpenAI それ以上の数ではなく、16 人の専門家を選択しました。 この決定は、優れた損失結果の達成と、さまざまなタスクにわたる汎用性の確保との間のバランスを反映しています。 タスクの一般化と収束に関して、より多くの専門家が課題を提示できる可能性があります。 OpenAI運動するという選択 専門家は注意 この選択は、信頼性が高く堅牢なパフォーマンスに対する同社の取り組みと一致しています。
推論コスト
前世代の 175 億パラメータの Davinci モデルと比較すると、 GPT-4の推論コストは約 XNUMX 倍になります。 この不一致は、サポートに必要な大規模なクラスターなど、いくつかの要因に起因する可能性があります。 GPT-4 そして、推論中に達成される使用率が低くなります。 推定コストは、0.0049 個の A1,000 GPU の場合は 128 トークンあたり 100 セント、0.0021 個の H1,000 GPU の場合は 128 トークンあたり 100 セントと推定されます。 GPT-4 8kで。 これらの数値は、コスト最適化にとって重要な考慮事項である適切な使用率と高いバッチサイズを前提としています。
マルチクエリアテンション
OpenAI 現場で広く採用されている技術であるマルチクエリー アテンション (MQA) を活用します。 GPT-4 同じように。 MQA を実装することにより、モデルに必要なヘッドは 32 つだけになり、キーバリュー キャッシュ (KV キャッシュ) に必要なメモリ容量が大幅に削減されます。 この最適化にもかかわらず、XNUMXk バッチは GPT-4 40GB A100 GPU には対応できず、8k は最大バッチ サイズによって制限されます。
連続バッチ処理
レイテンシーと推論コストのバランスを取るには、 OpenAI 可変バッチサイズと連続バッチ処理の両方を組み込みます。 GPT-4。 この適応的なアプローチにより、柔軟で効率的な処理が可能になり、リソース使用率が最適化され、計算オーバーヘッドが削減されます。
ビジョンマルチモーダル
GPT-4 では、テキスト エンコーダとは別にビジョン エンコーダを導入し、1.8 つのエンコーダ間の相互注意を特徴としています。 Flamingo を彷彿とさせるこのアーキテクチャは、すでに XNUMX 兆 XNUMX 億という驚異的なパラメータ数にさらにパラメータを追加します。 GPT-4。 ビジョン モデルは、テキストのみの事前トレーニング フェーズに続いて、約 2 兆のトークンを使用して個別に微調整されます。 この視覚能力により、 自律エージェント Web ページの読み取り、画像の転写、ビデオ コンテンツの解釈など、マルチメディア データの時代における貴重な資産です。
投機的デコード
の興味深い側面 GPT-4の推論戦略は、推測的デコードの使用の可能性です。 このアプローチには、より小型で高速なシステムの採用が含まれます。 複数のトークンの予測を事前に生成します。 これらの予測されたトークンは、単一のバッチとしてより大きな「オラクル」モデルに供給されます。 小さい方の場合 モデルの予測 より大きなモデルの合意に合わせて、複数のトークンを一緒にデコードできます。 ただし、より大きなモデルがドラフト モデルによって予測されたトークンを拒否した場合、残りのバッチは破棄され、より大きなモデルのみを使用して推論が続行されます。 このアプローチにより、より低い確率のシーケンスを潜在的に受け入れながら、効率的なデコードが可能になります。 現時点ではこの推測はまだ検証されていないことに注意してください。
推論アーキテクチャ
GPT-4の推論プロセスは、異なる場所にある複数のデータセンターに分散された 128 個の GPU のクラスター上で動作します。 このインフラストラクチャは、計算効率を最大化するために 8 方向のテンソル並列処理と 16 方向のパイプライン並列処理を採用しています。 各ノードは 8 つの GPU で構成され、約 130 億のパラメータに対応します。 モデルサイズは120レイヤーで、 GPT-4 15 の異なるノード内に収まりますが、埋め込みを計算する必要があるため、最初のノードの層が少なくなる可能性があります。 これらのアーキテクチャ上の選択により、高パフォーマンスの推論が促進され、次のことが実証されます。 OpenAIの計算効率の限界を押し上げる取り組み。
データセットのサイズと構成
GPT-4 は 13 兆個ものトークンを使ってトレーニングされており、学習するための広範なテキストのコーパスが提供されています。 ただし、トレーニング中に使用される既知のデータセットによってすべてのトークンを説明できるわけではありません。 CommonCrawl や RefinedWeb などのデータセットは、 トレーニングデータ、多くの場合「秘密」データと呼ばれる、不明なトークンの一部が残っています。
噂と憶測
この未公開データの出所に関する憶測が浮上している。 ある噂では、Twitter、Reddit、YouTube などの人気プラットフォームのコンテンツが含まれていると示唆されており、ユーザー作成コンテンツが形成に及ぼす影響の可能性を浮き彫りにしています。 GPT-4のナレッジベース。 さらに、数百万冊の書籍のリポジトリである LibGen や、多数の科学論文へのアクセスを提供するプラットフォームである Sci-Hub のような広範なコレクションが含まれるかどうかについての憶測もあります。 という概念 GPT-4 GitHub 全体でトレーニングされたものは、AI 愛好家の間でも広まりました。
記者の意見
噂はたくさんありますが、これらの噂には慎重に対処することが重要です。 のトレーニング GPT-4 大学の教科書で構成された特別なデータセットから大きな恩恵を受けた可能性があります。 このデータセットは幅広いコースや主題をカバーしており、手作業で丹念に組み立てられた可能性があります。 大学の教科書は、言語モデルのトレーニングに使用でき、簡単にテキスト ファイルに変換できる、構造化された包括的な知識ベースを提供します。 このようなデータセットが含まれると、次のような印象を与える可能性があります。 GPT-4 さまざまな分野に精通しています。
の魅力 GPT-4さんの知識
の興味深い側面の XNUMX つは、 GPT-4のトレーニングは、特定の書籍に精通していることを示し、Project Euler などのプラットフォームからの一意の識別子さえも思い出す能力です。 研究者たちは、本の暗記部分を抽出しようと試みてきました。 GPT-4 トレーニングに関する洞察が得られ、モデルの内部動作についての好奇心がさらに高まります。 これらの発見は、 GPT-4 情報を保持し、大規模な言語モデルの優れた機能を強調します。
多用途性 GPT-4
幅広いトピックと分野 GPT-4 一見するとその多用途性を示しています。 コンピューター サイエンスの複雑な質問に答える場合でも、哲学的な議論を掘り下げる場合でも、 GPT-4の多様なデータセットでのトレーニングにより、さまざまなドメインのユーザーと関わることができるようになります。 この多用途性は、膨大な数のテキスト リソースを利用できることから生まれており、幅広いユーザーにとって貴重なツールとなっています。
AI について詳しく読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。