スタンフォード大学の研究が証明 GPT-4 だんだんバカになってきている
簡単に言えば
スタンフォード大学とカリフォルニア大学バークレー校のマテイ・ザハリア氏と彼のチームによる研究では、 GPT-4 および ChatGPT モデルの有効性に関するユーザーの懸念に対処します。
この研究では、数学、コーディング、感性、視覚的推論という XNUMX つの特定のタスクについてモデルを評価しました。
マテイ・ザハリアとスタンフォード大学およびカリフォルニア大学バークレー校のチーム 研究を行った の性能を比較したもの GPT-4 〜へ ChatGPT。 この調査は、モデルの有効性が低下しているというユーザーの懸念に対処することを目的としていました。
研究者らは、XNUMX つの特定のタスクについてモデルを評価するように研究を設計しました。 これらのタスクには次のものが含まれます。
- 数学: 指定された数値が素数か合成数値かを判断するモデルの機能。
- コーディング: 意味のある機能的なコードを生成するモデルの能力を評価します。
- 感度: 潜在的に「有害な」コンテンツを含む質問に対するモデルの応答を分析します。
- 視覚的推論: ARC ベンチマークを使用して、視覚的パターンを伴う問題を解決するためのモデルの適性をテストします。 参加者は一連の画像内のパターンを特定し、それを適用して新しい例を解決する必要がありました。
数学の分野ではどちらも GPT-4 XNUMX 月と XNUMX 月のリリースでは、素数と合成数の決定において一貫した精度が示されました。 モデルはこれらの計算の処理に習熟していることを示し、信頼性の高い結果を提供しました。
コーディングに移りますが、 GPT-4 以前のバージョンと比較して、意味のある機能的なコードを生成する能力が向上しました。 このモデルのコード生成機能は有望であることが示され、開発者とプログラマーに潜在的なメリットをもたらしました。
感度に関して、この研究では、潜在的に有害または不快な内容を含む質問に対するモデルの反応を評価しました。 GPT-4 は感度分析の強化を実証し、そのような状況で適切な応答を提供する能力の向上を示しました。 これは、潜在的に問題のある出力に関するユーザーの懸念に対処する上で前向きな一歩を示しています。
最後に、ARC ベンチマークに基づく視覚的推論タスクは両方とも正常に完了しました。 GPT-4 バージョン。 このモデルは、画像セット内のパターンを効果的に識別し、これらのパターンを適用して新しい例を解決する能力を実証しました。 これは、視覚的な理解と推論の能力を示しています。
ChatGPT は XNUMX 月までにパフォーマンス指標の大幅な成長を実証し、XNUMX 倍を超える顕著な改善を示しました。 この研究では、この機能強化に寄与する特定の要因については詳しく掘り下げられていませんでしたが、次の点が強調されています。 ChatGPTの数学的推論と問題解決能力の進歩。
の品質 GPT-4 および ChatGPT 彼らのプログラミング能力を分析した結果、疑問が呈されました。 しかし、詳しく見てみると、第一印象とは相反する興味深いニュアンスがいくつかあることがわかります。
作者はコードを実行したり、その正確性を検証したりしませんでした。 彼らの評価は、Python コードとしての妥当性にのみ基づいていました。 さらに、モデルはデコレーターを使用した特定のコード フレーム化テクニックを学習したようで、意図せずコードの実行を妨げていました。
その結果、結果も実験自体もモデル劣化の証拠とはみなせないことが明らかになります。 代わりに、モデルは応答を生成するための異なるアプローチを示しており、トレーニングの変化を反映している可能性があります。
プログラミング タスクに関しては、どちらのモデルでも「間違った」プロンプトへの応答が減少しました。 GPT-4 このような場合には XNUMX 倍以上の減少が見られます。 さらに、視覚的推論タスクでは、両方のモデルで応答の質が数パーセント向上しました。 これらの観察は、パフォーマンスの低下ではなく進歩を示しています。
ただし、数学的スキルの評価には興味深い要素が導入されます。 モデルは一貫して素数を答えとして提供し、一貫した「はい」の応答を示しました。 しかし、サンプルに合成数を導入すると、モデルの動作が変化し、品質の低下ではなく不確実性を示唆する「いいえ」の応答を返し始めたことが明らかになりました。 試験自体が特殊で一方的、その結果は、品質の低下ではなく、モデルの動作の変化に起因すると考えられます。
テストされたのは API バージョンであり、ブラウザベースのバージョンではないことに注意することが重要です。 ブラウザ内のモデルがリソースを最適化するために調整された可能性はありますが、添付の調査では調整されていません。 defiこの仮説を理論的に証明してください。 このような変更の影響は、実際のモデルのダウングレードに匹敵する可能性があり、特定の作業に依存しているユーザーにとって潜在的な課題につながる可能性があります。 プロンプト そして蓄積された経験。
の場合には GPT-4 API アプリケーションでは、このような動作の逸脱は、目に見える結果をもたらす可能性があります。 特定のユーザーのニーズやタスクに基づいて開発されたコードは、モデルの動作が変更されると、意図したとおりに機能しなくなる可能性があります。
ユーザーも同様のテスト手法をワークフローに組み込むことをお勧めします。 プロンプト、付随するテキスト、および期待される結果のセットを作成することで、ユーザーは自分の期待とモデルの応答との間の一貫性を定期的にチェックできます。 逸脱が検出されるとすぐに、状況を修正するために適切な措置を講じることができます。
AI について詳しく読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。