研究者の複製 OpenAIRLHF における近接ポリシー最適化 (PPO) に基づく の取り組み
ヒューマン フィードバックからの強化学習 (RLHF) は、次のようなトレーニング システムに不可欠な部分です。 ChatGPT、成功を達成するには特殊な方法に依存します。 これらの手法の XNUMX つである近接ポリシー最適化 (PPO) は、当初は 想像 の壁の中で OpenAI 一見したところ、PPO は実装の簡素化と、モデルの微調整に必要なハイパーパラメータの数が比較的少ないという点で際立っていました。 しかし、よく言われるように、悪魔は細部に宿るのです。
最近、「近接ポリシー最適化の 37 の実装の詳細」は、PPO の複雑さに光を当てました (ICLR 会議用に準備されました)。 名前だけでも、この単純な方法を実装する際に直面する課題を示唆しています。 驚くべきことに、著者らは必要な情報をすべて収集し、結果を再現するのに XNUMX 年かかりました。
のコード OpenAI リポジトリはバージョン間で大幅な変更が加えられ、いくつかの側面は未説明のままであり、バグとして現れた特異性が何らかの形で結果をもたらしました。 詳細を掘り下げると、PPO の複雑さが明らかになります。深い理解や自己改善に興味がある人には、非常に推奨される概要ビデオが用意されています。
しかし、話はそこで終わりません。 同じ著者が再訪することにしました。 openai/lm-human-preferences リポジトリ 2019 年から、PPO を使用して人間の好みに基づいて言語モデルを微調整する上で重要な役割を果たしました。 このリポジトリは、 ChatGPT。 最近のブログ記事「PPO を使用した RLHF の N 実装の詳細」を忠実に再現 OpenAIは動作しますが、時代遅れの TensorFlow の代わりに PyTorch と最新のライブラリを使用します。 この移行には、フレームワーク間の Adam オプティマイザーの実装に違いがあり、調整なしでトレーニングを再現することが不可能になるなど、独自の一連の課題が伴いました。
おそらく、この旅の最も興味深い側面は、特定の GPU セットアップで実験を実行して、元のメトリクスと学習曲線を取得するという探求です。 これは、さまざまな GPU タイプのメモリ制約から、GPU の移行に至るまで、課題に満ちた旅です。 OpenAI ストレージ施設間のデータセット。
結論として、ヒューマン フィードバックからの強化学習 (RLHF) における近接ポリシー最適化 (PPO) の探求は、複雑で魅力的な世界を明らかにします。
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。