ニュースレポート テクノロジー
2023 年 6 月 01 日

OpenAI: 新しいプロセス監視型報酬モデリングにより AI 推論が向上

簡単に言えば

OpenAIのプロセス教師付き報酬モデリング (PRM) は、AI モデルの中間ステップと推論を評価し、パフォーマンスと指標の向上につながることを目的としています。

OpenAI は、プロセス監視型報酬モデリングにおける画期的な研究で、再び AI コミュニティの注目を集めました (PRM)。 この革新的なアプローチは、AI モデルの中間ステップと推論を評価し、パフォーマンスと指標の向上につながることを目的としています。

OpenAI: 新しいプロセス監視型報酬モデリングにより AI 推論が向上
クレジット: Metaverse Post (mpost.io)
推奨されます: ChatGPT 取引を容易にすることでウォール街を変える可能性がある

従来の人間のフィードバックからの強化学習では (RLHF)、モデルのフィードバックは通常、モデルによって生成された全体的な結果に基づいて与えられます。 しかし、 OpenAIの新しい研究では、モデルによって実行される個々のステップと推論プロセスを評価するというアイデアが検討されています。 そうすることで、よりきめ細かい評価とフィードバックを提供できるようになります。

この問題に取り組むには、 OpenAI 複数のアクションを必要とする数学的な問題を選択しました。 別 中間ステップを効果的に評価するように訓練され、一次モデルによって行われた誤った判断を特定する批評家としての役割を果たしました。 このプロセスにより、全体的なパフォーマンスが向上するだけでなく、モデルの機能を評価するために使用されるメトリクスも向上します。

OpenAI は、以下から構成される細心の注意を払って厳選されたデータセットのリリースにより、この分野で大きな進歩を遂げました。 800,000件のマークされた判決。 それぞれの判断は数学的問題を解決する際の個別の段階を表しており、手動で作成されています。 これにより、献身とリソースのレベルが強調されます OpenAI 高品質のデータセットの開発に投資します、プログラミングや自由回答形式の質問など、他のドメインで収集されるデータの量について疑問が生じます。

のトレーニング GPT-4, OpenAIの最新のイテレーション GPT シリーズはすでに順調に進んでいます。 RLHF コンポーネントは現在の実験には組み込まれていませんが、純粋な言語モデルが利用されています。 特に、 OpenAI には複数のバージョンがあることに言及しています GPT-4、最小のバージョンでも、トレーニングに必要なリソースが大幅に少なくなり、約 200 分の XNUMX になります。

が共有した興味深い例 OpenAI モデルが個々の意思決定ステップをどのように評価するかを示します。 投稿に含まれるスクリーンショットでは、ソリューション内のエラーにフラグが付けられ、最も低い正確性スコアが赤で強調表示されています。
クレジット: OpenAI

が共有した興味深い例 OpenAI モデルがどのように評価されるかを示します それぞれの個別の決定ステップ。 投稿に含まれるスクリーンショットでは、ソリューション内のエラーにフラグが付けられ、最も低い正確性スコアが赤で強調表示されています。 このデモンストレーションは、モデルの推論能力を強調し、意思決定プロセスに関する貴重な洞察を提供します。 OpenAI マークアップの手順も提供し、クラウドソーシング利用者が自分の仕事に貢献して利益を得られる機会を提供しています。

As OpenAI AI 研究の限界を押し広げ続けており、モデル推論とプロセス監視型報酬モデリングに焦点を当てており、強化された AI 機能に新たな可能性をもたらしています。 この最新の画期的な成果は、モデルのパフォーマンス向上に対する同社の取り組みを示し、この分野のさらなる進歩への扉を開きます。

AI について詳しく読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories
ニュースレターにご参加ください。
最新ニュース

今週のトップセール、AI、IT、 Web3、および暗号化 (06-10.04)

by ヴィクトリア・パルチク
2024 年 5 月 10 日

ボラティリティの中でビットコインETFへの機関投資家の意欲が高まる

13Fの提出書類による開示では、著名な機関投資家がビットコインETFに手を出していることが明らかになり、...

詳細を知りたい

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
ドナルド・トランプの仮想通貨への移行:反対派から擁護者へ、そしてそれが米国の仮想通貨市場にとって何を意味するか
ビジネス マーケット ストーリーとレビュー テクノロジー
ドナルド・トランプの仮想通貨への移行:反対派から擁護者へ、そしてそれが米国の仮想通貨市場にとって何を意味するか
2024 年 5 月 10 日
Layer3、今夏L3トークンを発売、総供給量の51%をコミュニティに割り当てる
マーケット ニュースレポート テクノロジー
Layer3、今夏L3トークンを発売、総供給量の51%をコミュニティに割り当てる
2024 年 5 月 10 日
エドワード・スノーデン氏、ビットコイン開発者への最終警告:「プライバシーをプロトコルレベルの優先事項にしなければ、それを失う危険がある」
マーケット セキュリティ Wiki ソフトウェア ストーリーとレビュー テクノロジー
エドワード・スノーデン氏、ビットコイン開発者への最終警告:「プライバシーをプロトコルレベルの優先事項にしなければ、それを失う危険がある」
2024 年 5 月 10 日
楽観主義を原動力とするイーサリアムレイヤー2ネットワークMint、15月XNUMX日にメインネットを開始
ニュースレポート テクノロジー
楽観主義を原動力とするイーサリアムレイヤー2ネットワークMint、15月XNUMX日にメインネットを開始
2024 年 5 月 10 日
CRYPTOMERIA LABS PTE。 株式会社。