ニュースレポート テクノロジー
2022年7月11日

スタンフォード大学の研究が証明 GPT-4 だんだんバカになってきている

簡単に言えば

スタンフォード大学とカリフォルニア大学バークレー校のマテイ・ザハリア氏と彼のチームによる研​​究では、 GPT-4 および ChatGPT モデルの有効性に関するユーザーの懸念に対処します。

この研究では、数学、コーディング、感性、視覚的推論という XNUMX つの特定のタスクについてモデルを評価しました。

マテイ・ザハリアとスタンフォード大学およびカリフォルニア大学バークレー校のチーム 研究を行った の性能を比較したもの GPT-4 〜へ ChatGPT。 この調査は、モデルの有効性が低下しているというユーザーの懸念に対処することを目的としていました。

スタンフォード大学の研究が証明 GPT-4 だんだんバカになってきている
クレジット: Metaverse Post
関連記事: GPT-4 対 GPT-3: 新モデルの特長は何ですか?

研究者らは、XNUMX つの特定のタスクについてモデルを評価するように研究を設計しました。 これらのタスクには次のものが含まれます。

  • 数学: 指定された数値が素数か合成数値かを判断するモデルの機能。
  • コーディング: 意味のある機能的なコードを生成するモデルの能力を評価します。
  • 感度: 潜在的に「有害な」コンテンツを含む質問に対するモデルの応答を分析します。
  • 視覚的推論: ARC ベンチマークを使用して、視覚的パターンを伴う問題を解決するためのモデルの適性をテストします。 参加者は一連の画像内のパターンを特定し、それを適用して新しい例を解決する必要がありました。

数学の分野ではどちらも GPT-4 XNUMX 月と XNUMX 月のリリースでは、素数と合成数の決定において一貫した精度が示されました。 モデルはこれらの計算の処理に習熟していることを示し、信頼性の高い結果を提供しました。

コーディングに移りますが、 GPT-4 以前のバージョンと比較して、意味のある機能的なコードを生成する能力が向上しました。 このモデルのコード生成機能は有望であることが示され、開発者とプログラマーに潜在的なメリットをもたらしました。

感度に関して、この研究では、潜在的に有害または不快な内容を含む質問に対するモデルの反応を評価しました。 GPT-4 は感度分析の強化を実証し、そのような状況で適切な応答を提供する能力の向上を示しました。 これは、潜在的に問題のある出力に関するユーザーの懸念に対処する上で前向きな一歩を示しています。

最後に、ARC ベンチマークに基づく視覚的推論タスクは両方とも正常に完了しました。 GPT-4 バージョン。 このモデルは、画像セット内のパターンを効果的に識別し、これらのパターンを適用して新しい例を解決する能力を実証しました。 これは、視覚的な理解と推論の能力を示しています。

結果は次のことを示しています GPT-4 精度の低下が見られ、正答率はわずか 2% 強でした。 この特定のテストでは、モデルの固有の数学的能力を示すのではなく、主にデータを呼び出すモデルの能力を評価することに注意することが重要です。 特に素数に関しては、モデルには計算の検証と推論の機能が欠けているため、このタスクは記憶の想起を中心に展開します。

ChatGPT は XNUMX 月までにパフォーマンス指標の大幅な成長を実証し、XNUMX 倍を超える顕著な改善を示しました。 この研究では、この機能強化に寄与する特定の要因については詳しく掘り下げられていませんでしたが、次の点が強調されています。 ChatGPTの数学的推論と問題解決能力の進歩。

この調査では、生成されたコードの品質や正確性は評価されませんでした。 代わりに、モデルはより「カスタム」な動作を示し、機能の正確性を保証せずにコード スニペットを提供しているように見えました。
関連記事: 10 年の 2023 以上のベスト AI 写真エンハンサー

の品質 GPT-4 および ChatGPT 彼らのプログラミング能力を分析した結果、疑問が呈されました。 しかし、詳しく見てみると、第一印象とは相反する興味深いニュアンスがいくつかあることがわかります。

作者はコードを実行したり、その正確性を検証したりしませんでした。 彼らの評価は、Python コードとしての妥当性にのみ基づいていました。 さらに、モデルはデコレーターを使用した特定のコード フレーム化テクニックを学習したようで、意図せずコードの実行を妨げていました。

その結果、結果も実験自体もモデル劣化の証拠とはみなせないことが明らかになります。 代わりに、モデルは応答を生成するための異なるアプローチを示しており、トレーニングの変化を反映している可能性があります。

プログラミングや数学の能力を測る試験です。 GPT-4 および ChatGPT 興味深い発見が明らかになりました。 当初の想定に反して、モデルは特定の領域で顕著な改善を示し、他の領域では行動の変化を示しました。

プログラミング タスクに関しては、どちらのモデルでも「間違った」プロンプトへの応答が減少しました。 GPT-4 このような場合には XNUMX 倍以上の減少が見られます。 さらに、視覚的推論タスクでは、両方のモデルで応答の質が数パーセント向上しました。 これらの観察は、パフォーマンスの低下ではなく進歩を示しています。

ただし、数学的スキルの評価には興味深い要素が導入されます。 モデルは一貫して素数を答えとして提供し、一貫した「はい」の応答を示しました。 しかし、サンプルに合成数を導入すると、モデルの動作が変化し、品質の低下ではなく不確実性を示唆する「いいえ」の応答を返し始めたことが明らかになりました。 試験自体が特殊で一方的、その結果は、品質の低下ではなく、モデルの動作の変化に起因すると考えられます。

テストされたのは API バージョンであり、ブラウザベースのバージョンではないことに注意することが重要です。 ブラウザ内のモデルがリソースを最適化するために調整された可能性はありますが、添付の調査では調整されていません。 defiこの仮説を理論的に証明してください。 このような変更の影響は、実際のモデルのダウングレードに匹敵する可能性があり、特定の作業に依存しているユーザーにとって潜在的な課題につながる可能性があります。 プロンプト そして蓄積された経験。

の場合には GPT-4 API アプリケーションでは、このような動作の逸脱は、目に見える結果をもたらす可能性があります。 特定のユーザーのニーズやタスクに基づいて開発されたコードは、モデルの動作が変更されると、意図したとおりに機能しなくなる可能性があります。

ユーザーも同様のテスト手法をワークフローに組み込むことをお勧めします。 プロンプト、付随するテキスト、および期待される結果のセットを作成することで、ユーザーは自分の期待とモデルの応答との間の一貫性を定期的にチェックできます。 逸脱が検出されるとすぐに、状況を修正するために適切な措置を講じることができます。

AI について詳しく読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories

Liskが正式にイーサリアムレイヤー2に移行し、コアv4.0.6を公開

by アリサ・デビッドソン
2024 年 5 月 08 日
ニュースレターにご参加ください。
最新ニュース

Liskが正式にイーサリアムレイヤー2に移行し、コアv4.0.6を公開

by アリサ・デビッドソン
2024 年 5 月 08 日

ボラティリティの中でビットコインETFへの機関投資家の意欲が高まる

13Fの提出書類による開示では、著名な機関投資家がビットコインETFに手を出していることが明らかになり、...

詳細を知りたい

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
Nexo、エコシステムに参加したユーザーに 12 万ドルの NEXO トークンを報酬として与える「ザ・ハント」を開始
マーケット ニュースレポート テクノロジー
Nexo、エコシステムに参加したユーザーに 12 万ドルの NEXO トークンを報酬として与える「ザ・ハント」を開始
2024 年 5 月 8 日
RevolutのRevolut X Exchangeはメーカー手数料ゼロと高度な分析で仮想通貨トレーダーを魅了
マーケット ソフトウェア ストーリーとレビュー テクノロジー
RevolutのRevolut X Exchangeはメーカー手数料ゼロと高度な分析で仮想通貨トレーダーを魅了
2024 年 5 月 8 日
暗号通貨取引プラットフォーム BitMEX が手数料ゼロと現金インセンティブ付きのオプション取引をデビュー
ビジネス マーケット ニュースレポート
暗号通貨取引プラットフォーム BitMEX が手数料ゼロと現金インセンティブ付きのオプション取引をデビュー
2024 年 5 月 8 日
Liskが正式にイーサリアムレイヤー2に移行し、コアv4.0.6を公開
ニュースレポート テクノロジー
Liskが正式にイーサリアムレイヤー2に移行し、コアv4.0.6を公開
2024 年 5 月 8 日
CRYPTOMERIA LABS PTE。 株式会社。