ニュースレポート テクノロジー
2023 年 10 月 27 日

研究者の複製 OpenAIRLHF における近接ポリシー最適化 (PPO) に基づく の取り組み

ヒューマン フィードバックからの強化学習 (RLHF) は、次のようなトレーニング システムに不可欠な部分です。 ChatGPT、成功を達成するには特殊な方法に依存します。 これらの手法の XNUMX つである近接ポリシー最適化 (PPO) は、当初は 想像 の壁の中で OpenAI 一見したところ、PPO は実装の簡素化と、モデルの微調整に必要なハイパーパラメータの数が比較的少ないという点で際立っていました。 しかし、よく言われるように、悪魔は細部に宿るのです。

研究者の複製 OpenAIRLHF の近接ポリシー最適化 (PPO) に基づく の取り組み

最近、「近接ポリシー最適化の 37 の実装の詳細」は、PPO の複雑さに光を当てました (ICLR 会議用に準備されました)。 名前だけでも、この単純な方法を実装する際に直面する課題を示唆しています。 驚くべきことに、著者らは必要な情報をすべて収集し、結果を再現するのに XNUMX 年かかりました。

のコード OpenAI リポジトリはバージョン間で大幅な変更が加えられ、いくつかの側面は未説明のままであり、バグとして現れた特異性が何らかの形で結果をもたらしました。 詳細を掘り下げると、PPO の複雑さが明らかになります。深い理解や自己改善に興味がある人には、非常に推奨される概要ビデオが用意されています。

しかし、話はそこで終わりません。 同じ著者が再訪することにしました。 openai/lm-human-preferences リポジトリ 2019 年から、PPO を使用して人間の好みに基づいて言語モデルを微調整する上で重要な役割を果たしました。 このリポジトリは、 ChatGPT。 最近のブログ記事「PPO を使用した RLHF の N 実装の詳細」を忠実に再現 OpenAIは動作しますが、時代遅れの TensorFlow の代わりに PyTorch と最新のライブラリを使用します。 この移行には、フレームワーク間の Adam オプティマイザーの実装に違いがあり、調整なしでトレーニングを再現することが不可能になるなど、独自の一連の課題が伴いました。

おそらく、この旅の最も興味深い側面は、特定の GPU セットアップで実験を実行して、元のメトリクスと学習曲線を取得するという探求です。 これは、さまざまな GPU タイプのメモリ制約から、GPU の移行に至るまで、課題に満ちた旅です。 OpenAI ストレージ施設間のデータセット。

結論として、ヒューマン フィードバックからの強化学習 (RLHF) における近接ポリシー最適化 (PPO) の探求は、複雑で魅力的な世界を明らかにします。

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories
ニュースレターにご参加ください。
最新ニュース

ボラティリティの中でビットコインETFへの機関投資家の意欲が高まる

13Fの提出書類による開示では、著名な機関投資家がビットコインETFに手を出していることが明らかになり、...

詳細を知りたい

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
Side Protocol がインセンティブ付きテストネットを開始し、Insider Point システムを導入し、ユーザーが SIDE ポイントを獲得できるようにします
マーケット ニュースレポート テクノロジー
Side Protocol がインセンティブ付きテストネットを開始し、Insider Point システムを導入し、ユーザーが SIDE ポイントを獲得できるようにします
2024 年 5 月 9 日
Web3 2024 年 XNUMX 月の暗号イベント: ブロックチェーンとブロックチェーンの新しいテクノロジーと新たなトレンドの探索 DeFi
ダイジェスト ビジネス マーケット テクノロジー
Web3 2024 年 XNUMX 月の暗号イベント: ブロックチェーンとブロックチェーンの新しいテクノロジーと新たなトレンドの探索 DeFi
2024 年 5 月 9 日
NotcoinがOKXジャンプスタートでローンチ、マイニング用トークン総供給量の1.25%を提供
マーケット ニュースレポート テクノロジー
NotcoinがOKXジャンプスタートでローンチ、マイニング用トークン総供給量の1.25%を提供
2024 年 5 月 9 日
Puffer Finance がメインネットを立ち上げ、ネットワーク分散化のためにノード オペレーターの参加を強化
ニュースレポート テクノロジー
Puffer Finance がメインネットを立ち上げ、ネットワーク分散化のためにノード オペレーターの参加を強化
2024 年 5 月 9 日
CRYPTOMERIA LABS PTE。 株式会社。