OpenAI:新的流程监督奖励模型改进了人工智能推理
简单来说
OpenAI的过程监督奖励模型(PRM)旨在评估人工智能模型的中间步骤和推理,从而提高性能和指标。
OpenAI 以其在过程监督奖励模型方面的开创性工作再次引起了人工智能界的关注(的PRM). 这种创新方法旨在评估 AI 模型的中间步骤和推理,从而提高性能和指标。
首推最高性价比: ChatGPT 可以通过让交易变得更容易来改变华尔街 |
在传统的人类反馈强化学习中(左高频),模型反馈通常是根据模型生成的总体结果给出的。 然而, OpenAI的新研究探索了评估模型所执行的各个步骤和推理过程的想法。 通过这样做,他们可以提供更细粒度的评估和反馈。
为了解决这个问题, OpenAI 选择需要多种操作的数学问题。 独立 模型 接受过有效评估中间步骤的培训,充当批评家以识别主要模型做出的任何错误判断。 此过程不仅提高了整体性能,而且改进了用于评估模型功能的指标。
OpenAI 在这一领域取得了重大进展,发布了精心策划的数据集,其中包括 800,000个标记判断. 每个判断代表解决数学问题的一个单独阶段,并且是手动创建的。 这凸显了奉献精神和资源水平 OpenAI 投资开发高质量数据集,提出有关为其他领域收集的数据量的问题,例如编程或开放式问题。
的训练 GPT-4, OpenAI的最新版本 GPT 系列,已经在有条不紊地进行中。 虽然 RLHF 组件没有纳入当前的实验中,但使用了纯语言模型。 尤其, OpenAI 提到有多个版本 GPT-4,即使是最小的版本也需要更少的训练资源——大约减少 200 倍。
分享的一个有趣的例子 OpenAI 展示模型如何评估 每个单独的决策步骤。 在帖子中包含的屏幕截图中,解决方案中的错误被标记,并给出最低的正确性分数,以红色突出显示。 该演示强调了模型的推理能力,并为其决策过程提供了宝贵的见解。 OpenAI 还提供了加价说明,为众包者提供了贡献并从其工作中受益的机会。
As OpenAI 不断突破人工智能研究的界限,他们对模型推理和过程监督奖励建模的关注为增强人工智能能力带来了新的可能性。 这一最新突破展示了他们对提高模型性能的承诺,并为该领域的进一步进步打开了大门。
- 最近, 据报道,苹果公司限制员工使用 ChatGPT 和其他人工智能驱动的聊天机器人由于隐私问题。 《华尔街日报》报道称,员工还被限制使用 GitHub 的人工智能工具 Copilot,该工具 使用户能够自动编写软件代码. ChatGPT 是一个由人工智能驱动的聊天机器人 OpenAI,因侵犯隐私而受到批评。
阅读有关人工智能的更多信息:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。