2023 年 7 月 11 日

GPT-4泄露的细节揭示了其巨大的规模和令人印象深刻的建筑

by 达米尔亚拉洛夫

发布时间：11 年 2023 月 7 日凌晨 19:11 更新日期：2023 年 7 月 23 日凌晨 XNUMX:XNUMX

by 丹尼尔·米亚金

编辑和事实核查：11 年 2023 月 7 日凌晨 19:XNUMX

简单来说

被泄露的信息是关于 GPT-4 引起了人工智能界的兴奋。参数是前代产品的10倍以上， GPT-3, GPT-4 估计有 1.8 万亿个参数分布在 120 层中。

OpenAI 实施了专家混合 (MoE) 模型，利用 16 位专家和多层感知器 (MLP) 的 111 亿个参数。该模型的高效推理过程利用 280 亿个参数和每次前向传递 560 TFLOP，展示了 OpenAI致力于最大限度地提高效率和成本效益。该模型的训练数据集包括 13 万亿个令牌，可从 8k 到 32k 进行微调。

OpenAI 利用并行性 GPT-4 采用 100 路张量并行性和 8 路管道并行性，充分发挥 A15 GPU 的潜力。培训过程内容广泛且资源密集，成本从 32 万美元到 63 万美元不等。

GPT-4的推理成本大约是其前身的三倍，但它还结合了多查询注意力、连续批处理和推测解码。推理架构在分布于多个数据中心的 128 个 GPU 集群上运行。

最近泄露的细节 GPT-4 在人工智能界引起了轩然大波。从未公开来源获得的泄露信息让我们得以一睹这一突破性模型的令人惊叹的能力和前所未有的规模。我们将分解事实并揭示导致问题的关键方面 GPT-4 真正的技术奇迹。

GPT-4泄露的细节揭示了其巨大的规模和令人印象深刻的建筑 — 信用： Metaverse Post (mpost.io）

GPT-4海量参数计数

泄密事件中最引人注目的启示之一是其规模之大 GPT-4。它拥有令人惊叹的尺寸，参数是其前身的10倍以上， GPT-3。估计总数约为 1.8，令人震惊万亿参数分布在令人印象深刻的 120 层中。规模的大幅增长无疑有助于 GPT-4的增强能力以及突破性进步的潜力。

专家混合模型 (MoE)

为了确保合理的成本，同时保持卓越的性能， OpenAI 实施了专家混合（MoE）模型 GPT-4。通过利用模型中的 16 位专家，每个专家包含约 111 亿个多层感知器 (MLP) 参数， OpenAI 有效优化资源配置。值得注意的是，在每次前向传递期间，仅路由两名专家，从而在不影响结果的情况下最大限度地减少计算要求。这种创新方法表明 OpenAI致力于最大限度地提高模型的效率和成本效益。

非常有趣且详细的泄漏 GPT-4 架构，对其背后的推理及其含义进行了出色的分析 – 通过 @dylan522p :https://t.co/eHE7VlGY5V

可以在此处找到非付费摘要： https://t.co/rLxw5s9ZDt
— 简·P·哈里斯 (@jphme) 2023 年 7 月 11 日

简化的 MoE 路由算法

虽然该模型经常探索先进的路由算法来选择专家来处理每个令牌， OpenAI当前的做法 GPT-4 据报道，模型更加简单。据称，人工智能采用的路由算法相对简单，但仍然有效。大约 55 亿个共享注意力参数有助于将代币有效分配给模型内的适当专家。

高效推理

GPT-4的推理过程展示了其效率和计算能力。每个前向传递专用于生成单个令牌，利用大约 280 亿个参数和 560 TFLOP（每秒万亿次浮点运算）。这与庞大的规模形成鲜明对比 GPT-4，在纯密集模型中具有 1.8 万亿个参数和每次前向传递 3,700 TFLOP。资源高效利用亮点 OpenAI致力于在没有过多计算要求的情况下实现最佳性能。

广泛的训练数据集

GPT-4 已在包含约 13 万亿个代币的庞大数据集上进行了训练。值得注意的是，这些代币包括唯一代币和占纪元数的代币。这训练过程包括基于文本的数据的两个纪元和基于代码的数据的四个纪元。 OpenAI 利用来自 ScaleAI 和内部的数百万行指令微调数据来改进模型的性能。

预训练阶段 GPT-4 采用 8k 上下文长度。随后，模型进行了微调，产生了32k版本。这一进展建立在预训练阶段的基础上，增强了模型的能力并根据特定任务进行定制。

通过并行性使用 GPU 进行扩展

OpenAI 利用并行性的力量 GPT-4 充分发挥 A100 GPU 的潜力。他们采用 8 路张量并行性，最大限度地提高并行处理能力，因为这是 NVLink 的限制。此外，还利用 15 路管道并行性来进一步提高性能。虽然可能采用了 ZeRo Stage 1 等特定技术，但确切的方法仍未公开。

培训成本和使用挑战

产品培训 GPT-4 这是一项广泛且资源密集型的工作。 OpenAI 在 25,000 到 100 天内分配了大约 90 个 A100 GPU，以大约 32% 到 36% MFU（最常用）的利用率运行。训练过程发生了多次失败，需要频繁地从检查点重新启动。如果估计每 A1 小时 100 美元，培训费用仅此一次就耗资约 63 万美元。

专家组合的权衡

实施混合专家模型需要进行一些权衡。如果是 GPT-4, OpenAI 选择了 16 名专家，而不是更多的专家。这一决定反映了实现优异的损失结果和确保跨各种任务的通用性之间的平衡。更多的专家可以在任务泛化和收敛方面提出挑战。 OpenAI锻炼的选择专家谨慎选择符合他们对可靠和强大性能的承诺。

推理成本

与其前身175亿参数达芬奇模型相比， GPT-4的推理成本大约高出三倍。这种差异可归因于几个因素，包括支持更大的集群 GPT-4 以及推理过程中实现的较低利用率。据估计，推断时，0.0049 个 A1,000 GPU 的每 128 个代币的成本约为 100 美分，0.0021 个 H1,000 GPU 的每 128 个代币的成本约为 100 美分 GPT-4 与8k。这些数字假设了良好的利用率和高批量大小，这是成本优化的关键考虑因素。

多查询注意力

OpenAI 利用多查询注意力（MQA），这是一种在该领域广泛采用的技术， GPT-4 以及。通过实现MQA，该模型只需要一个头，从而大大减少了键值缓存（KV缓存）所需的内存容量。尽管进行了这种优化，但应该注意的是，32k 批次 GPT-4 无法容纳在 40GB A100 GPU 上，并且 8k 受到最大批量大小的限制。

连续配料

为了在延迟和推理成本之间取得平衡， OpenAI 结合了可变批量大小和连续批量 GPT-4。这种自适应方法可以实现灵活高效的处理，优化资源利用率并减少计算开销。

GPT-4 在文本编码器旁边引入了一个单独的视觉编码器，具有两者之间的交叉注意力。这种架构让人想起 Flamingo，在已经令人印象深刻的 1.8 万亿参数数量中添加了额外的参数 GPT-4。在纯文本预训练阶段之后，视觉模型使用大约 2 万亿个令牌进行单独的微调。这种视觉能力赋予自主代理阅读网页、转录图像和解释视频内容——这是多媒体数据时代的无价资产。

推测性解码

一个有趣的方面 GPT-4的推理策略是可能使用推测性解码。这种方法涉及采用更小、更快的模型提前生成多个标记的预测。然后将这些预测的令牌作为单个批次输入到更大的“预言机”模型中。如果较小的模型的预测为了与更大模型的协议保持一致，可以一起解码多个令牌。但是，如果较大的模型拒绝草稿模型预测的标记，则该批次的其余部分将被丢弃，并且仅对较大的模型继续进行推理。这种方法允许高效解码，同时可能接受较低概率的序列。值得注意的是，目前这一猜测尚未得到证实。

推理架构

GPT-4的推理过程在一个由 128 个 GPU 组成的集群上运行，这些 GPU 分布在不同位置的多个数据中心。该基础设施采用 8 路张量并行性和 16 路管道并行性来最大限度地提高计算效率。每个节点由 8 个 GPU 组成，可容纳约 130 亿个参数。模型尺寸为120层， GPT-4 可以容纳 15 个不同的节点，由于需要计算嵌入，第一个节点中的层数可能较少。这些架构选择有助于高性能推理，证明 OpenAI致力于突破计算效率的界限。

数据集大小和组成

GPT-4 接受了令人印象深刻的 13 万亿个代币的训练，为其提供了大量可供学习的文本语料库。然而，并非所有标记都可以由训练期间使用的已知数据集来解释。虽然 CommonCrawl 和RefinedWeb 等数据集贡献了很大一部分训练数据，仍然有一部分代币下落不明，通常被称为“秘密”数据。

谣言和猜测

关于这些未公开数据的来源的猜测已经出现。一项传言称，它包含来自 Twitter、Reddit 和 YouTube 等流行平台的内容，强调了用户生成内容在塑造 GPT-4的知识库。此外，还有一些猜测围绕着庞大的馆藏，例如 LibGen（包含数百万本书的存储库）和 Sci-Hub（一个提供大量科学论文访问的平台）。的想法是 GPT-4 在整个 GitHub 上接受培训的文章也在 AI 爱好者中流传。

记者观点

尽管有很多谣言，但谨慎对待这些谣言很重要。的培训 GPT-4 可能从由大学教科书组成的特殊数据集中受益匪浅。该数据集涵盖了广泛的课程和主题，可以通过手工精心组装。大学教科书提供了结构化且全面的知识库，可成功用于训练语言模型，并可轻松转换为文本文件。包含这样的数据集可能会给人这样的印象： GPT-4 在各个领域都有丰富的知识。

迷恋 GPT-4的知识

一个有趣的方面 GPT-4训练的重点是表现出对特定书籍的熟悉程度，甚至能够回忆起欧拉计划等平台上的独特标识符。研究人员试图从书中提取记忆的书籍部分 GPT-4 深入了解其训练，进一步激发人们对模型内部运作的好奇心。这些发现凸显了其惊人的能力 GPT-4 保留信息并强调大规模语言模型的令人印象深刻的能力。

的多功能性 GPT-4

广泛的主题和领域 GPT-4 看似可以参与展示其多功能性。无论是回答计算机科学中的复杂问题还是深入研究哲学辩论， GPT-4对不同数据集的训练使其能够与来自不同领域的用户进行互动。这种多功能性源于它接触大量文本资源，使其成为广大用户的宝贵工具。

阅读有关人工智能的更多信息：

标签：

免责声明

在与行信托项目指南，请注意，本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。重要的是，仅投资您可以承受损失的金额，并在有任何疑问时寻求独立的财务建议。如需了解更多信息，我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告，但市场状况如有变更，恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post，涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。他的文章每月吸引超过一百万用户的大量读者。他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。达米尔获得了物理学学士学位，他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。