新闻报道 专业技术
2023 年 10 月 27 日

研究人员重复 OpenAIRLHF 中基于近端策略优化 (PPO) 的工作

人类反馈强化学习 (RLHF) 是培训系统的一个组成部分,例如 ChatGPT,并且依靠专门的方法才能取得成功。 其中一种方法是近端策略优化 (PPO),最初是 设想 在墙内 OpenAI 2017 年。乍一看,PPO 因其实现简单、微调模型所需的超参数数量相对较少而脱颖而出。 然而,正如他们所说,细节决定成败。

研究人员重复 OpenAIRLHF 中基于近端策略优化 (PPO) 的工作

最近,一篇名为“近端策略优化的37个实施细节” 阐明了 PPO 的复杂性(为 ICLR 会议准备)。 仅这个名字就暗示了实施这种简单的方法所面临的挑战。 令人惊讶的是,作者花了三年时间才收集所有必要的信息并重现结果。

中的代码 OpenAI 存储库在版本之间经历了重大变化,某些方面无法解释,并且以错误的形式出现的特殊性以某种方式产生了结果。 当您深入研究细节时,PPO 的复杂性就会变得显而易见,对于那些有兴趣深入了解或自我提高的人,强烈推荐视频摘要。

但故事并没有就此结束。 同一批作者决定重新审视 openai/lm-人类偏好存储库 从 2019 年开始,它在使用 PPO 根据人类偏好微调语言模型方面发挥了至关重要的作用。 该存储库标志着 ChatGPT。 最近的博客文章“RLHF 与 PPO 的 N 实施细节,”紧密复制 OpenAI的工作,但使用 PyTorch 和现代库而不是过时的 TensorFlow。 这种转变也带来了一系列挑战,例如框架之间 Adam 优化器的实现存在差异,因此无法在不进行调整的情况下复制训练。

也许此旅程中最有趣的方面是寻求在特定 GPU 设置上运行实验以获得原始指标和学习曲线。 这是一个充满挑战的旅程,从各种 GPU 类型的内存限制到迁移 OpenAI 存储设施之间的数据集。

总之,对人类反馈强化学习 (RLHF) 中的近端策略优化 (PPO) 的探索揭示了一个令人着迷的复杂世界。

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories
加入我们的时事通讯。
最新消息

在波动中机构对比特币 ETF 的兴趣增强

通过 13F 文件披露的信息显示,著名机构投资者涉足比特币 ETF,突显出人们越来越接受......

了解更多

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多
加入我们的创新技术社区
了解更多
查看更多
唐纳德·特朗普向加密货币的转变:从反对者到倡导者,以及这对美国加密货币市场意味着什么
企业 市场 故事和评论 专业技术
唐纳德·特朗普向加密货币的转变:从反对者到倡导者,以及这对美国加密货币市场意味着什么
2024 年 5 月 10 日
Layer3 将于今年夏天推出 L3 代币,将总供应量的 51% 分配给社区
市场 新闻报道 专业技术
Layer3 将于今年夏天推出 L3 代币,将总供应量的 51% 分配给社区
2024 年 5 月 10 日
爱德华·斯诺登对比特币开发者的最后警告:“让隐私成为协议级别的优先事项,否则就有失去隐私的风险
市场 安保行业 Wiki 软件 故事和评论 专业技术
爱德华·斯诺登对比特币开发者的最后警告:“让隐私成为协议级别的优先事项,否则就有失去隐私的风险
2024 年 5 月 10 日
乐观情绪驱动的以太坊 Layer 2 Network Mint 将于 15 月 XNUMX 日推出其主网
新闻报道 专业技术
乐观情绪驱动的以太坊 Layer 2 Network Mint 将于 15 月 XNUMX 日推出其主网
2024 年 5 月 10 日