研究人员重复 OpenAIRLHF 中基于近端策略优化 (PPO) 的工作
人类反馈强化学习 (RLHF) 是培训系统的一个组成部分,例如 ChatGPT,并且依靠专门的方法才能取得成功。 其中一种方法是近端策略优化 (PPO),最初是 设想 在墙内 OpenAI 2017 年。乍一看,PPO 因其实现简单、微调模型所需的超参数数量相对较少而脱颖而出。 然而,正如他们所说,细节决定成败。
最近,一篇名为“近端策略优化的37个实施细节” 阐明了 PPO 的复杂性(为 ICLR 会议准备)。 仅这个名字就暗示了实施这种简单的方法所面临的挑战。 令人惊讶的是,作者花了三年时间才收集所有必要的信息并重现结果。
中的代码 OpenAI 存储库在版本之间经历了重大变化,某些方面无法解释,并且以错误的形式出现的特殊性以某种方式产生了结果。 当您深入研究细节时,PPO 的复杂性就会变得显而易见,对于那些有兴趣深入了解或自我提高的人,强烈推荐视频摘要。
但故事并没有就此结束。 同一批作者决定重新审视 openai/lm-人类偏好存储库 从 2019 年开始,它在使用 PPO 根据人类偏好微调语言模型方面发挥了至关重要的作用。 该存储库标志着 ChatGPT。 最近的博客文章“RLHF 与 PPO 的 N 实施细节,”紧密复制 OpenAI的工作,但使用 PyTorch 和现代库而不是过时的 TensorFlow。 这种转变也带来了一系列挑战,例如框架之间 Adam 优化器的实现存在差异,因此无法在不进行调整的情况下复制训练。
也许此旅程中最有趣的方面是寻求在特定 GPU 设置上运行实验以获得原始指标和学习曲线。 这是一个充满挑战的旅程,从各种 GPU 类型的内存限制到迁移 OpenAI 存储设施之间的数据集。
总之,对人类反馈强化学习 (RLHF) 中的近端策略优化 (PPO) 的探索揭示了一个令人着迷的复杂世界。
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。