研究人員重複 OpenAIRLHF 中基於近端策略優化 (PPO) 的工作
人類回饋強化學習 (RLHF) 是訓練系統的一個組成部分,例如 ChatGPT,並且依靠專門的方法才能取得成功。 其中一種方法是近端策略優化 (PPO),最初是 設想 在牆內 OpenAI 2017 年。乍一看,PPO 因其實現簡單、微調模型所需的超參數數量相對較少而脫穎而出。 然而,正如他們所說,細節決定成敗。
最近,一篇名為“近端策略優化的37個實作細節」 闡明了 PPO 的複雜性(為 ICLR 會議準備)。 光是這個名字就暗示了實施這種簡單的方法所面臨的挑戰。 令人驚訝的是,作者花了三年時間收集所有必要的資訊並重現結果。
中的程式碼 OpenAI 儲存庫在版本之間經歷了重大變化,某些方面無法解釋,並且以錯誤的形式出現的特殊性以某種方式產生了結果。 當您深入研究細節時,PPO 的複雜性就會變得顯而易見,對於有興趣深入了解或自我提升的人,強烈推薦影片摘要。
但故事並沒有就此結束。 同一批作者決定重新審視 openai/lm-人類偏好儲存庫 從 2019 年開始,它在使用 PPO 根據人類偏好微調語言模型方面發揮了至關重要的作用。 該存儲庫標誌著 ChatGPT。 最近的部落格文章“RLHF 與 PPO 的 N 實作細節,」緊密複製 OpenAI的工作,但使用 PyTorch 和現代庫而不是過時的 TensorFlow。 這種轉變也帶來了一系列挑戰,例如框架之間 Adam 優化器的實現存在差異,因此無法在不進行調整的情況下複製訓練。
也許此旅程中最有趣的方面是尋求在特定 GPU 設定上運行實驗以獲得原始指標和學習曲線。 這是一個充滿挑戰的旅程,從各種 GPU 類型的記憶體限製到遷移 OpenAI 儲存設施之間的資料集。
總之,對人類回饋強化學習 (RLHF) 中的近端策略優化 (PPO) 的探索揭示了一個令人著迷的複雜世界。
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。
更多文章Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。