新闻报道 专业技术
2023 年 6 月 01 日

OpenAI:新的流程监督奖励模型改进了人工智能推理

简单来说

OpenAI的过程监督奖励模型(PRM)旨在评估人工智能模型的中间步骤和推理,从而提高性能和指标。

OpenAI 以其在过程监督奖励模型方面的开创性工作再次引起了人工智能界的关注(的PRM). 这种创新方法旨在评估 AI 模型的中间步骤和推理,从而提高性能和指标。

OpenAI:新的流程监督奖励模型改进了人工智能推理
信用: Metaverse Post (mpost.io)
首推最高性价比: ChatGPT 可以通过让交易变得更容易来改变华尔街

在传统的人类反馈强化学习中(左高频),模型反馈通常是根据模型生成的总体结果给出的。 然而, OpenAI的新研究探索了评估模型所执行的各个步骤和推理过程的想法。 通过这样做,他们可以提供更细粒度的评估和反馈。

为了解决这个问题, OpenAI 选择需要多种操作的数学问题。 独立 模型 接受过有效评估中间步骤的培训,充当批评家以识别主要模型做出的任何错误判断。 此过程不仅提高了整体性能,而且改进了用于评估模型功能的指标。

OpenAI 在这一领域取得了重大进展,发布了精心策划的数据集,其中包括 800,000个标记判断. 每个判断代表解决数学问题的一个单独阶段,并且是手动创建的。 这凸显了奉献精神和资源水平 OpenAI 投资开发高质量数据集,提出有关为其他领域收集的数据量的问题,例如编程或开放式问题。

的训练 GPT-4, OpenAI的最新版本 GPT 系列,已经在有条不紊地进行中。 虽然 RLHF 组件没有纳入当前的实验中,但使用了纯语言模型。 尤其, OpenAI 提到有多个版本 GPT-4,即使是最小的版本也需要更少的训练资源——大约减少 200 倍。

分享的一个有趣的例子 OpenAI 展示模型如何评估每个单独的决策步骤。 在帖子中包含的屏幕截图中,解决方案中的错误被标记,并给出最低的正确性分数,以红色突出显示。
信用: OpenAI

分享的一个有趣的例子 OpenAI 展示模型如何评估 每个单独的决策步骤。 在帖子中包含的屏幕截图中,解决方案中的错误被标记,并给出最低的正确性分数,以红色突出显示。 该演示强调了模型的推理能力,并为其决策过程提供了宝贵的见解。 OpenAI 还提供了加价说明,为众包者提供了贡献并从其工作中受益的机会。

As OpenAI 不断突破人工智能研究的界限,他们对模型推理和过程监督奖励建模的关注为增强人工智能能力带来了新的可能性。 这一最新突破展示了他们对提高模型性能的承诺,并为该领域的进一步进步打开了大门。

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories
加入我们的时事通讯。
最新消息

在波动中机构对比特币 ETF 的兴趣增强

通过 13F 文件披露的信息显示,著名机构投资者涉足比特币 ETF,突显出人们越来越接受......

了解更多

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多
加入我们的创新技术社区
了解更多
查看更多
唐纳德·特朗普向加密货币的转变:从反对者到倡导者,以及这对美国加密货币市场意味着什么
企业 市场 故事和评论 专业技术
唐纳德·特朗普向加密货币的转变:从反对者到倡导者,以及这对美国加密货币市场意味着什么
2024 年 5 月 10 日
Layer3 将于今年夏天推出 L3 代币,将总供应量的 51% 分配给社区
市场 新闻报道 专业技术
Layer3 将于今年夏天推出 L3 代币,将总供应量的 51% 分配给社区
2024 年 5 月 10 日
爱德华·斯诺登对比特币开发者的最后警告:“让隐私成为协议级别的优先事项,否则就有失去隐私的风险
市场 安保行业 Wiki 软件 故事和评论 专业技术
爱德华·斯诺登对比特币开发者的最后警告:“让隐私成为协议级别的优先事项,否则就有失去隐私的风险
2024 年 5 月 10 日
乐观情绪驱动的以太坊 Layer 2 Network Mint 将于 15 月 XNUMX 日推出其主网
新闻报道 专业技术
乐观情绪驱动的以太坊 Layer 2 Network Mint 将于 15 月 XNUMX 日推出其主网
2024 年 5 月 10 日