OpenAI: 新しいプロセス監視型報酬モデリングにより AI 推論が向上
簡単に言えば
OpenAIのプロセス教師付き報酬モデリング (PRM) は、AI モデルの中間ステップと推論を評価し、パフォーマンスと指標の向上につながることを目的としています。
OpenAI は、プロセス監視型報酬モデリングにおける画期的な研究で、再び AI コミュニティの注目を集めました (PRM)。 この革新的なアプローチは、AI モデルの中間ステップと推論を評価し、パフォーマンスと指標の向上につながることを目的としています。
従来の人間のフィードバックからの強化学習では (RLHF)、モデルのフィードバックは通常、モデルによって生成された全体的な結果に基づいて与えられます。 しかし、 OpenAIの新しい研究では、モデルによって実行される個々のステップと推論プロセスを評価するというアイデアが検討されています。 そうすることで、よりきめ細かい評価とフィードバックを提供できるようになります。
この問題に取り組むには、 OpenAI 複数のアクションを必要とする数学的な問題を選択しました。 別 中間ステップを効果的に評価するように訓練され、一次モデルによって行われた誤った判断を特定する批評家としての役割を果たしました。 このプロセスにより、全体的なパフォーマンスが向上するだけでなく、モデルの機能を評価するために使用されるメトリクスも向上します。
OpenAI は、以下から構成される細心の注意を払って厳選されたデータセットのリリースにより、この分野で大きな進歩を遂げました。 800,000件のマークされた判決。 それぞれの判断は数学的問題を解決する際の個別の段階を表しており、手動で作成されています。 これにより、献身とリソースのレベルが強調されます OpenAI 高品質のデータセットの開発に投資します、プログラミングや自由回答形式の質問など、他のドメインで収集されるデータの量について疑問が生じます。
のトレーニング GPT-4, OpenAIの最新のイテレーション GPT シリーズはすでに順調に進んでいます。 RLHF コンポーネントは現在の実験には組み込まれていませんが、純粋な言語モデルが利用されています。 特に、 OpenAI には複数のバージョンがあることに言及しています GPT-4、最小のバージョンでも、トレーニングに必要なリソースが大幅に少なくなり、約 200 分の XNUMX になります。
が共有した興味深い例 OpenAI モデルがどのように評価されるかを示します それぞれの個別の決定ステップ。 投稿に含まれるスクリーンショットでは、ソリューション内のエラーにフラグが付けられ、最も低い正確性スコアが赤で強調表示されています。 このデモンストレーションは、モデルの推論能力を強調し、意思決定プロセスに関する貴重な洞察を提供します。 OpenAI マークアップの手順も提供し、クラウドソーシング利用者が自分の仕事に貢献して利益を得られる機会を提供しています。
As OpenAI AI 研究の限界を押し広げ続けており、モデル推論とプロセス監視型報酬モデリングに焦点を当てており、強化された AI 機能に新たな可能性をもたらしています。 この最新の画期的な成果は、モデルのパフォーマンス向上に対する同社の取り組みを示し、この分野のさらなる進歩への扉を開きます。
- 最近では、 Appleは従業員の使用を制限していると伝えられている ChatGPT プライバシー上の懸念から、その他の AI を利用したチャットボットも利用できません。 ウォール・ストリート・ジャーナルは、従業員がGitHubのAIツールCopilotの使用も制限されていると報じた。 ユーザーがソフトウェア コードを自動的に作成できるようにします. ChatGPT によって開発された AI を活用したチャットボットです。 OpenAI、プライバシー侵害として批判されています。
AI について詳しく読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。