ニュースレポート SMW テクノロジー
2023 年 5 月 30 日

GPT-4米国司法試験での成績はその主張に矛盾

簡単に言えば

の検査 GPT-4の統一司法試験の成績から、推定成績と実際の成績の間に乖離があることが明らかになり、透明性のある評価手順とアクセス可能なデータの重要性が強調されました。

OpenAI 信頼を獲得し、信頼性を確保するために、不一致に対処し、AI モデル評価に対するより包括的で信頼性の高いアプローチを開発することが推奨されます。

最近の検査では、 GPT-4の統一司法試験での成績 (EBU)、その正確さには疑問が生じています。 OpenAIモデルの成功率に関する主張。 という当初の主張に反して、 GPT-4 90% の個人を上回ります、この結果は、AI モデルの推定パフォーマンスと実際のパフォーマンスの間に大きな差異があることを示唆しています。 この啓示は、そのような主張を検証するための透明性のある評価手順とアクセス可能なデータの重要性を強調しています。

GPT-4米国司法試験での成績はその主張に矛盾
@Midjourney

検査では、真の能力を確認するためにさまざまな要素に焦点を当てました。 GPT-4。 まず、 分析 イリノイ州でのXNUMX月の試験で明らかになった GPT-4のスコアは に近づきました 90パーセンタイル。 ただし、これらのスコアは、以前に XNUMX 月の試験に失敗し、全体の平均を下回った再受験者によって大きく影響されていることが観察されました。

さらに、XNUMX月の試験の結果は矛盾していました OpenAIの主張は、次のことを明らかにしています。 GPT-4 だけだろう 優れたパフォーマンス 人物は68%、エッセイは48%。 GPT-4の初受験者に対する成績 (再受験を除く) は、異なる期間のいくつかのテストの公式データを考慮した場合、63 パーセンタイルで評価され、エッセイの得点は 41 パーセンタイルでかなり低くなりました。

免許取得者や免許取得を待っている人を含む試験合格者の成績を調査することで、さらなる視点が得られました。 この点について、 GPT-4の全体的なパフォーマンスは 48 パーセンタイルにランクされ、エッセイは 15 パーセンタイルでさらに悪かった。

これらの調査結果は憂慮すべきものですが、審査プロセスにおける人的ミスの可能性を考慮することが重要です。 記事の著者は、研究者が評価するために利用したサンプルを理解することの重要性を強調しています。 GPT-4のパフォーマンス。 公式データ、特に集計形式が不足しているため、パーセンタイルの公正な比較と評価が困難になります。 すべての利害関係者が評価できる、明確でアクセスしやすい評価手法を確立することが重要です。

こうした懸念に応えて、 OpenAI 矛盾に対処するよう求められており、 さらなる洞察を提供する 評価プロセスに移行します。 透明性とオープン性は、法律などの一か八かの分野で信頼を獲得し、AI モデルの信頼性を確保するために不可欠です。

この記事では、 GPT-4このスコアの重要性を評価するには、使用される採点システムを状況に応じて理解する必要があります。 B を付けて学校から帰ってきた子供が祝賀の原因となるか失望の原因になる可能性があるのと同じように、 GPT-4のスコアは、使用されるスケールによって異なります。

の評価 GPT-4の司法試験の成績 深刻な懸念を引き起こす の真実性について OpenAIの最初の主張。 推定パフォーマンスと実際のパフォーマンスの間にギャップがあるため、明確な評価システムと簡単にアクセスできるデータの重要性が強調されます。 OpenAI これらの課題に対処し、より包括的で包括的なシステムを開発することが奨励されています。 AIへの確かなアプローチ モデルの評価。

AI について詳しく読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories
ニュースレターにご参加ください。
最新ニュース

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい

Samourai Wallet創設者、ダークネット取引で2億ドルを仲介したとして告発

Samourai Wallet 創設者の懸念は業界にとって顕著な後退を表しており、永続的な問題を浮き彫りにしています。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
ChainlinkとRapid Additionが協力してCCIPベースのブロックチェーンアダプターを開発
ビジネス ニュースレポート テクノロジー
ChainlinkとRapid Additionが協力してCCIPベースのブロックチェーンアダプターを開発
2024 年 5 月 1 日
BitSmiley が Alphanet V1 を発表、ビットコイン レイヤ 2 ネットワークにデビュー Bitlayer
ニュースレポート テクノロジー
BitSmiley が Alphanet V1 を発表、ビットコイン レイヤ 2 ネットワークにデビュー Bitlayer
2024 年 5 月 1 日
2024 年 141 月のハッキングと詐欺は歴史的低水準となり、CertiK は XNUMX 月から XNUMX% 減少したと報告
マーケット セキュリティ Wiki ストーリーとレビュー テクノロジー
2024 年 141 月のハッキングと詐欺は歴史的低水準となり、CertiK は XNUMX 月から XNUMX% 減少したと報告
2024 年 5 月 1 日
連邦準備理事会の金利決定発表を前にビットコイン価格が下落、アナリストは市場変動の可能性を警告
マーケット ニュースレポート テクノロジー
連邦準備理事会の金利決定発表を前にビットコイン価格が下落、アナリストは市場変動の可能性を警告
2024 年 5 月 1 日
CRYPTOMERIA LABS PTE。 株式会社。