2023 年 7 月 11 日

GPT-4洩漏的細節揭示了其巨大的規模和令人印象深刻的建築

by 達米爾亞拉洛夫

發佈時間：11 年 2023 月 7 日上午 19:11 更新時間：2023 年 7 月 23 日上午 XNUMX:XNUMX

by 丹尼爾·米亞金

編輯和事實核查：11 年 2023 月 7 日上午 19:XNUMX

簡單來說

被洩漏的資訊是關於 GPT-4 引起了人工智慧界的興奮。參數是前代產品的10倍以上， GPT-3, GPT-4 估計有 1.8 兆個參數分佈在 120 層。

OpenAI 實施了專家混合 (MoE) 模型，利用 16 位專家和多層感知器 (MLP) 的 111 億個參數。該模型的高效推理過程利用 280 億個參數和每次前向傳遞 560 TFLOP，展示了 OpenAI致力於最大限度地提高效率和成本效益。該模型的訓練數據集包括 13 萬億個令牌，可從 8k 到 32k 進行微調。

OpenAI 利用平行性 GPT-4 採用 100 路張量並行性和 8 路管線並行性，充分發揮 A15 GPU 的潛力。培訓過程內容廣泛且資源密集，成本從 32 萬美元到 63 萬美元不等。

GPT-4的推理成本大約是其前身的三倍，但它也結合了多查詢注意力、連續批次和推測解碼。推理架構在分佈於多個資料中心的 128 個 GPU 叢集上運作。

最近洩漏的細節 GPT-4 在人工智慧界引起了軒然大波。從未公開來源獲得的洩漏資訊讓我們得以一睹這突破性模型的令人驚嘆的能力和前所未有的規模。我們將分解事實並揭示導致問題的關鍵方面 GPT-4 真正的技術奇蹟。

GPT-4洩漏的細節揭示了其巨大的規模和令人印象深刻的建築 — 信用： Metaverse Post (mpost.io）

GPT-4海量參數計數

洩密事件中最引人注目的啟示之一是其規模之大 GPT-4。它擁有令人驚嘆的尺寸，參數是其前身的10倍以上， GPT-3。估計總數約 1.8，令人震驚萬億參數分佈在令人印象深刻的 120 層中。規模的大幅增長無疑有助於 GPT-4的增強能力以及突破性進步的潛力。

專家混合模型 (MoE)

為了確保合理的成本，同時保持卓越的性能， OpenAI 實施了專家混合（MoE）模型 GPT-4。透過利用模型中的 16 位專家，每位專家包含約 111 億個多層感知器 (MLP) 參數， OpenAI 有效優化資源配置。值得注意的是，在每次前向傳遞期間，僅路由兩名專家，從而在不影響結果的情況下最大限度地減少計算要求。這種創新方法表明 OpenAI致力於最大限度地提高模型的效率和成本效益。

非常有趣且詳細的洩漏 GPT-4 架構，對其背後的推理及其含義進行了出色的分析 – 透過 @dylan522p :https://t.co/eHE7VlGY5V

可以在此處找到非付費摘要： https://t.co/rLxw5s9ZDt
— 簡·P·哈里斯 (@jphme) 2023 年 7 月 11 日

簡化的 MoE 路由算法

雖然該模型經常探索先進的路由算法來選擇專家來處理每個令牌， OpenAI目前的做法 GPT-4 據報道，模型更加簡單。據稱，人工智慧採用的路由演算法相對簡單，但仍然有效。大約 55 億個共享注意力參數有助於將代幣有效分配給模型內的適當專家。

高效推理

GPT-4的推理過程展現了其效率和計算能力。每個前向傳遞專用於產生單一令牌，利用約 280 億個參數和 560 TFLOP（每秒萬億次浮點運算）。這與龐大的規模形成鮮明對比 GPT-4，在純密集模型中具有 1.8 兆個參數和每次前向傳遞 3,700 TFLOP。資源高效利用亮點 OpenAI致力於在沒有過多計算要求的情況下實現最佳性能。

廣泛的訓練數據集

GPT-4 已在包含約 13 兆個代幣的龐大資料集上進行了訓練。值得注意的是，這些代幣包括唯一代幣和占紀元數的代幣。這訓練過程包括基於文本的數據的兩個紀元和基於代碼的數據的四個紀元。 OpenAI 利用來自 ScaleAI 和內部的數百萬行指令微調數據來改進模型的性能。

預訓練階段 GPT-4 採用 8k 上下文長度。隨後，模型進行了微調，產生了32k版本。這項進展建立在預訓練階段的基礎上，增強了模型的能力並根據特定任務進行客製化。

通過並行性使用 GPU 進行擴展

OpenAI 利用並行性的力量 GPT-4 充分發揮 A100 GPU 的潛力。他們採用 8 路張量並行性，最大限度地提高並行處理能力，因為這是 NVLink 的限制。此外，還利用 15 路管道並行性來進一步提高效能。雖然可能採用了 ZeRo Stage 1 等特定技術，但確切的方法仍未公開。

培訓成本和使用挑戰

技術培訓 GPT-4 這是一項廣泛且資源密集的工作。 OpenAI 在 25,000 到 100 天內分配了大約 90 個 A100 GPU，以大約 32% 到 36% MFU（最常用）的利用率運行。訓練過程發生了多次失敗，需要頻繁地從檢查點重新啟動。如果估計每 A1 小時 100 美元，培訓費用僅此一次就耗資約 63 萬美元。

專家組合的權衡

實施混合專家模型需要進行一些權衡。如果是 GPT-4, OpenAI 選擇了 16 名專家，而不是更多的專家。這一決定反映了實現優異的損失結果和確保跨各種任務的通用性之間的平衡。更多的專家可以在任務泛化和收斂方面提出挑戰。 OpenAI運動的選擇專家謹慎選擇符合他們對可靠和強大性能的承諾。

推理成本

與其前身175億參數達文西模型相比， GPT-4的推理成本大約高出三倍。這種差異可歸因於幾個因素，包括支持更大的集群 GPT-4 以及推理過程中所實現的較低利用率。據估計，推斷時，0.0049 個 A1,000 GPU 的每 128 個代幣的成本約為 100 美分，0.0021 個 H1,000 GPU 的每 128 個代幣的成本約為 100 美分 GPT-4 與8k。這些數字假設了良好的利用率和高批量大小，這是成本最佳化的關鍵考慮因素。

多查詢注意力

OpenAI 利用多查詢注意力（MQA），這是一種在該領域廣泛採用的技術， GPT-4 以及。透過實現MQA，該模型只需要一個頭，從而大大減少了鍵值快取（KV快取）所需的記憶體容量。儘管進行了這種優化，但應該注意的是，32k 批次 GPT-4 無法容納在 40GB A100 GPU 上，且 8k 受到最大批量大小的限制。

連續配料

為了在延遲和推理成本之間取得平衡， OpenAI 結合了可變批量大小和連續批量 GPT-4。這種自適應方法可以實現靈活高效的處理，優化資源利用率並減少計算開銷。

GPT-4 在文字編碼器旁邊引入了一個單獨的視覺編碼器，具有兩者之間的交叉注意力。這種架構讓人想起 Flamingo，在已經令人印象深刻的 1.8 兆參數數量中添加了額外的參數 GPT-4。在純文字預訓練階段之後，視覺模型使用大約 2 兆個代幣進行單獨的微調。這種視覺能力賦予自主代理閱讀網頁、轉錄圖像和解釋影片內容——這是多媒體資料時代的無價資產。

推測性解碼

一個有趣的方面 GPT-4的推理策略是可能使用推測性解碼。這種方法涉及採用更小、更快的模型提前生成多個標記的預測。然後將這些預測的令牌作為單個批次輸入到更大的“預言機”模型中。如果較小的模型的預測為了與更大模型的協議保持一致，可以一起解碼多個令牌。但是，如果較大的模型拒絕草稿模型預測的標記，則該批次的其餘部分將被丟棄，並且僅對較大的模型繼續進行推理。這種方法允許高效解碼，同時可能接受較低概率的序列。值得注意的是，目前這一猜測尚未得到證實。

推理架構

GPT-4的推理過程在一個由 128 個 GPU 組成的叢集上運行，這些 GPU 分佈在不同位置的多個資料中心。此基礎設施採用 8 路張量並行性和 16 路管道並行性來最大限度地提高運算效率。每個節點由 8 個 GPU 組成，可容納約 130 億個參數。模型尺寸為120層， GPT-4 可以容納 15 個不同的節點，由於需要計算嵌入，第一個節點中的層數可能較少。這些架構選擇有助於高效能推理，證明 OpenAI致力於突破計算效率的界限。

數據集大小和組成

GPT-4 接受了令人印象深刻的 13 兆個代幣的訓練，為其提供了大量可供學習的文本語料庫。然而，並非所有標記都可以由訓練期間使用的已知資料集來解釋。雖然 CommonCrawl 和RefinedWeb 等資料集貢獻了很大一部分訓練數據，仍然有一部分代幣下落不明，通常被稱為“秘密”數據。

謠言和猜測

關於這些未公開數據的來源的猜測已經出現。一項傳言稱，它包含來自 Twitter、Reddit 和 YouTube 等流行平台的內容，凸顯了用戶生成內容在塑造 GPT-4的知識庫。此外，還有一些猜測圍繞著龐大的館藏，例如 LibGen（包含數百萬本書的儲存庫）和 Sci-Hub（一個提供大量科學論文存取的平台）。的想法是 GPT-4 在整個 GitHub 上接受培訓的文章也在 AI 愛好者中流傳。

記者觀點

儘管有許多謠言，但謹慎對待這些謠言很重要。的培訓 GPT-4 可能從由大學教科書組成的特殊數據集中受益匪淺。該資料集涵蓋了廣泛的課程和主題，可以透過手工精心組裝。大學教科書提供了結構化且全面的知識庫，可成功用於訓練語言模型，並可輕鬆轉換為文字檔案。包含這樣的資料集可能會給人這樣的印象： GPT-4 在各領域都有豐富的知識。

迷戀 GPT-4的知識

一個有趣的方面 GPT-4訓練的重點是表現出對特定書籍的熟悉程度，甚至能夠回憶起歐拉計畫等平台上的獨特標識符。研究人員試圖從書中提取記憶的書籍部分 GPT-4 深入了解其訓練，進一步激發人們對模型內部運作的好奇心。這些發現凸顯了其驚人的能力 GPT-4 保留資訊並強調大規模語言模型的令人印象深刻的能力。

的多功能性 GPT-4

廣泛的主題和領域 GPT-4 看似可以參與展示其多功能性。無論是回答計算機科學中的複雜問題還是深入哲學辯論， GPT-4對不同資料集的訓練使其能夠與來自不同領域的使用者互動。這種多功能性源自於它接觸大量文字資源，使其成為廣大使用者的寶貴工具。

閱讀有關人工智能的更多信息：

標籤：

免責聲明

在與線信託專案指南，請注意，本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。重要的是，僅投資您可以承受損失的金額，並在有任何疑問時尋求獨立的財務建議。如需了解更多信息，我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告，但市場狀況如有變更，恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post，涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。他的文章每月吸引超過一百萬用戶的大量讀者。他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。達米爾獲得了物理學學士學位，他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。