新聞報導 專業技術
2023 年 10 月 27 日

研究人員重複 OpenAIRLHF 中基於近端策略優化 (PPO) 的工作

人類回饋強化學習 (RLHF) 是訓練系統的一個組成部分,例如 ChatGPT,並且依靠專門的方法才能取得成功。 其中一種方法是近端策略優化 (PPO),最初是 設想 在牆內 OpenAI 2017 年。乍一看,PPO 因其實現簡單、微調模型所需的超參數數量相對較少而脫穎而出。 然而,正如他們所說,細節決定成敗。

研究人員重複 OpenAIRLHF 中基於近端策略優化 (PPO) 的工作

最近,一篇名為“近端策略優化的37個實作細節」 闡明了 PPO 的複雜性(為 ICLR 會議準備)。 光是這個名字就暗示了實施這種簡單的方法所面臨的挑戰。 令人驚訝的是,作者花了三年時間收集所有必要的資訊並重現結果。

中的程式碼 OpenAI 儲存庫在版本之間經歷了重大變化,某些方面無法解釋,並且以錯誤的形式出現的特殊性以某種方式產生了結果。 當您深入研究細節時,PPO 的複雜性就會變得顯而易見,對於有興趣深入了解或自我提升的人,強烈推薦影片摘要。

但故事並沒有就此結束。 同一批作者決定重新審視 openai/lm-人類偏好儲存庫 從 2019 年開始,它在使用 PPO 根據人類偏好微調語言模型方面發揮了至關重要的作用。 該存儲庫標誌著 ChatGPT。 最近的部落格文章“RLHF 與 PPO 的 N 實作細節,」緊密複製 OpenAI的工作,但使用 PyTorch 和現代庫而不是過時的 TensorFlow。 這種轉變也帶來了一系列挑戰,例如框架之間 Adam 優化器的實現存在差異,因此無法在不進行調整的情況下複製訓練。

也許此旅程中最有趣的方面是尋求在特定 GPU 設定上運行實驗以獲得原始指標和學習曲線。 這是一個充滿挑戰的旅程,從各種 GPU 類型的記憶體限製到遷移 OpenAI 儲存設施之間的資料集。

總之,對人類回饋強化學習 (RLHF) 中的近端策略優化 (PPO) 的探索揭示了一個令人著迷的複雜世界。

免責聲明

在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。

關於作者

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

更多文章
達米爾亞拉洛夫
達米爾亞拉洛夫

Damir 是團隊領導、產品經理和編輯 Metaverse Post,涵蓋 AI/ML、AGI、LLM、Metaverse 等主題 Web3- 相關領域。 他的文章每月吸引超過一百萬用戶的大量讀者。 他似乎是一位在 SEO 和數字營銷方面擁有 10 年經驗的專家。 達米爾曾在 Mashable、Wired、 Cointelegraph、《紐約客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作為數字游牧者往返於阿聯酋、土耳其、俄羅斯和獨聯體國家之間。 達米爾獲得了物理學學士學位,他認為這賦予了他在不斷變化的互聯網格局中取得成功所需的批判性思維技能。 

Hot Stories
加入我們的時事通訊。
最新消息

在波動中機構對比特幣 ETF 的興趣增強

透過 13F 文件揭露的資訊顯示,著名機構投資者涉足比特幣 ETF,突顯出人們越來越接受...

了解更多

宣判日到來:美國法院考慮司法部的認罪,CZ 的命運懸而未決

趙長鵬將於今日在西雅圖的美國法院接受宣判。

了解更多
加入我們的創新技術社區
了解更多
阅读更多
唐納德·川普向加密貨幣的轉變:從反對者到倡導者,以及這對美國加密貨幣市場意味著什麼
購物 市場 故事和評論 專業技術
唐納德·川普向加密貨幣的轉變:從反對者到倡導者,以及這對美國加密貨幣市場意味著什麼
2024 年 5 月 10 日
Layer3 將於今年夏天推出 L3 代幣,將總供應量的 51% 分配給社區
市場 新聞報導 專業技術
Layer3 將於今年夏天推出 L3 代幣,將總供應量的 51% 分配給社區
2024 年 5 月 10 日
愛德華·斯諾登對比特幣開發者的最後警告:「讓隱私成為協議級別的優先事項,否則就有失去隱私的風險
市場 安全性 Wiki 軟體 故事和評論 專業技術
愛德華·斯諾登對比特幣開發者的最後警告:「讓隱私成為協議級別的優先事項,否則就有失去隱私的風險
2024 年 5 月 10 日
樂觀情緒驅動的以太坊 Layer 2 Network Mint 將於 15 月 XNUMX 日推出主網
新聞報導 專業技術
樂觀情緒驅動的以太坊 Layer 2 Network Mint 將於 15 月 XNUMX 日推出主網
2024 年 5 月 10 日