ニュースレポート テクノロジー
2023 年 3 月 16 日

OpenAI AI モデルを評価するためのオープンソース ソフトウェア フレームワークである Evals を発表

簡単に言えば

OpenAI のような AI モデルを評価するためのベンチマークをクラウドソースで提供したいと考えています。 GPT-4.

決済処理会社である Stripe は、すでに Evals を使用して、その精度を測定しています。 GPT- を活用したドキュメント ツール。

OpenAI 与えることになる GPT-4 高品質の評価に貢献した人に期間限定でアクセスできます。

OpenAI AI モデルを評価するためのオープンソース ソフトウェア フレームワークである Evals を発表

の発表と併せて、 GPT-4, OpenAI オープンソースソフトウェアフレームワークを発表しました OpenAI エヴァルス。 このツールは、次のようなモデルのパフォーマンスを評価するベンチマークを作成して実行するように設計されています。 GPT-4。 エヴァルスさんとは、 OpenAI AI モデル テストのベンチマークをクラウドソーシングしたいと考えています。 

「私たちは Evals を使用してモデルの開発をガイドし (欠点の特定と回帰の防止の両方)、ユーザーはそれを適用して、モデル バージョン全体のパフォーマンスを追跡し (現在は定期的にリリースされます)、進化する製品統合を行うことができます」と同社は説明しています。 a ブログ投稿.

人気のある決済処理会社である Stripe は、人間による評価を補完し、評価の精度を測定するためにすでに Evals を使用しています。 GPT- を活用したドキュメント ツール。

開発者は Evals を使用して、次のような評価を作成および実行できます。

  • データセットを使用してプロンプトを生成します。
  • 提供された完了の品質を測定します。 OpenAI ,
  • 異なるデータセットとモデル間でパフォーマンスを比較します。

オープンソース コードを使用すると、開発者は、 カスタム評価 と同様 いくつかのテンプレート さまざまなベンチマークに対応できる可能性があります。 同社は、「モデルによる評価」のテンプレートなど、社内で最も役立つテンプレートを組み込みました。 GPT-4 自身の動作を確認するために使用できます。 従う例として、同社は XNUMX 個のプロンプトを含む論理パズルの評価を作成しました。 GPT-4 失敗します。

Evals は、アカデミック ベンチマークを実装するいくつかのノートブックや、CoQA の小さなサブセットを統合するいくつかのバリエーションなど、既存のベンチマークの実装とも互換性があります。

開発者は評価の提供に対して報酬を受け取ることはありませんが、 OpenAI 与えることになる GPT-4 「高品質の評価」を提供した人には期間限定でアクセスできます。 

Evalsの発表はこの後 OpenAI 最近言った 顧客がオプトインすることを決定しない限り、API を介して顧客から送信されたデータを使用してモデルをトレーニングまたは改善することを停止します。同社は、クラウドソーシング ベンチマークで Meta に参加します。 -アートモデル」 ダイナベンチ プラットフォームを提供します。

続きを読む:

タグ:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

シンディはジャーナリストです Metaverse Postに関連するトピックをカバーしています。 web3, NFT、metaverse、AIに関するインタビューを中心に紹介します。 Web3 業界関係者。彼女は 30 人以上の経営幹部と話をし、その貴重な洞察を読者に届けています。シンガポール出身のシンディは、現在ジョージア州トビリシに拠点を置いています。彼女は南オーストラリア大学でコミュニケーションとメディア研究の学士号を取得しており、ジャーナリズムと執筆において XNUMX 年の経験があります。彼女に連絡するには、 [メール保護] プレス ピッチ、発表、インタビューの機会を提供します。

より多くの記事
シンディ・タン
シンディ・タン

シンディはジャーナリストです Metaverse Postに関連するトピックをカバーしています。 web3, NFT、metaverse、AIに関するインタビューを中心に紹介します。 Web3 業界関係者。彼女は 30 人以上の経営幹部と話をし、その貴重な洞察を読者に届けています。シンガポール出身のシンディは、現在ジョージア州トビリシに拠点を置いています。彼女は南オーストラリア大学でコミュニケーションとメディア研究の学士号を取得しており、ジャーナリズムと執筆において XNUMX 年の経験があります。彼女に連絡するには、 [メール保護] プレス ピッチ、発表、インタビューの機会を提供します。

Hot Stories

BRICS 諸国向けステーブルコイン取引ソリューション

by ヴィクトリア・パルチク
2024 年 5 月 01 日
ニュースレターにご参加ください。
最新ニュース

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい

Samourai Wallet創設者、ダークネット取引で2億ドルを仲介したとして告発

Samourai Wallet 創設者の懸念は業界にとって顕著な後退を表しており、永続的な問題を浮き彫りにしています。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
Ankr、AIブロックチェーンプラットフォームTalus Networkと連携し、AI向けビットコインの流動性を解放
ビジネス ニュースレポート テクノロジー
Ankr、AIブロックチェーンプラットフォームTalus Networkと連携し、AI向けビットコインの流動性を解放
2024 年 5 月 1 日
Binance Labs、ブロックチェーン全体での Facebook の Move 統合を促進するために Movement Labs をサポート
ビジネス ニュースレポート テクノロジー
Binance Labs、ブロックチェーン全体での Facebook の Move 統合を促進するために Movement Labs をサポート
2024 年 5 月 1 日
BRICS 諸国向けステーブルコイン取引ソリューション
ビジネス マーケット ストーリーとレビュー テクノロジー
BRICS 諸国向けステーブルコイン取引ソリューション
2024 年 5 月 1 日
ビットコイン L2 ネットワーク BOB が LayerZero と統合され、機能が強化
ビジネス ニュースレポート テクノロジー
ビットコイン L2 ネットワーク BOB が LayerZero と統合され、機能が強化
2024 年 5 月 1 日
CRYPTOMERIA LABS PTE。 株式会社。