GPT-4 優れた性能 GPT-3.5 さまざまな研究ベンチマークを全面的に評価
簡単に言えば
GPT-4 よりも高い成績基準を達成している GPT-3さまざまなベンチマークで.5。
これは、機械が人間のような知性を備えているだけでなく、人間よりも優れた能力を発揮できることを示しているため、大きな成果であり、AI の将来と雇用市場への影響の可能性について疑問を投げかけています。
GPT-4 追加のトレーニング プロトコルやベンチマーク固有の設計を使用するモデルや、既存の大きな言語モデルを含む最先端 (SOTA) モデルよりもパフォーマンスが大幅に優れています。
GPT-4 よりも高いスコアを達成しました GPT-3さまざまなベンチマークで.5。 これは、機械が本来の目的で設計された問題を解決できるだけでなく、大学生よりもうまく解決できることを証明したため、機械にとって大きな進歩です。
この結果を見る際に考慮すべき点がいくつかあります。 まず、 GPT-4 これらの試験のための特別なトレーニングは受けていません。 最新の公開テスト (オリンピックおよび AP の自由回答問題の場合) を使用するか、2022 ~ 2023 年版の模擬試験を購入することで進められました。 第二に、次のことに注意することが重要です。 GPT-4のパフォーマンスは、異なる原則とアルゴリズムに基づいて動作するため、必ずしも人間の受験者の能力を反映しているとは限りません。
これは大きな成果として それが示している 機械は人間のような知性を発揮できるだけでなく、私たちよりも優れた性能を発揮することができます。 これは、機械がますます複雑なタスクを引き受けることができる未来への道を開き、最終的には私たちの日常生活を機械が支援できる未来につながります.
GPT-4たとえば、模擬司法試験に受験者の上位 10% の得点で合格します。 GPT-3.5のスコアは下位10%でした。 この大幅な改善により、 GPT-4のパフォーマンスは、より大きなトレーニング データと改善されたアーキテクチャによるものです。 自然言語処理や自動筆記など、さまざまな分野での幅広い応用が期待されています。
追加のトレーニング プロトコルやベンチマーク固有の設計を使用するモデルや、既存の大きなモデルを含む、最先端 (SOTA) モデルの大部分 言語モデル、が大幅に上回っています。 GPT-4.
開発者は社内で次のことを利用しています。 GPT-4、プログラミング、販売、サポート、コンテンツモデレーションなどの活動に大きな影響を与えています。 私たちの調整方法の第 XNUMX 段階は現在進行中であり、開発者はこの方法を人間による AI 結果のレビューを支援するために使用しています。
MMLU (Massive Multi-Task Language Understanding) データセットには、さまざまなタスク (数学、生物学、法律、社会科学、人間科学などを含む 57 のドメインにまたがる) における言語理解に関する非常に幅広いトピックからの質問が含まれています。 この質問には 25 つの答えがあり、そのうちの 35 つが正解です。 つまり、ランダムな推測では、90% の正答率の結果が示されます。 質問の例とその難しさについては、下の図を参照してください。 平均的なパーソン マーカー (つまり、これは科学者でも教授でもなく、マークアップとして月明かりを浴びる普通の人でもありません) は、質問の XNUMX% に正しく答えます。 ただし、専門家は +/- XNUMX% のスコアに達する可能性があります。
もともと、データセット全体は英語でした。 しかし、質問と回答が他の言語、特に一般的ではない言語に翻訳されたらどうなるでしょうか? このモデルは何らかの形で彼らに役立つでしょうか? このテストでは、Microsoft Azure Translate サービスを翻訳に使用しました。 翻訳は完璧ではありません。 場合によっては、重要な情報が失われます。 ただし、この場合でも、 GPT-4 他の言語でもうまく機能します。 MMLU の翻訳版では、 GPT-4 調査対象の 24 言語のうち 26 言語において、他の大規模モデル (Google を含む) の英語レベルを上回っています。
そのうえ、 GPT-4 まれな言語でより優れたパフォーマンスを発揮します ChatGPT 英語でやった(ChatGPT タイ語のスコアは 70.1% でしたが、タイ語の新モデルのスコアは 71.8% でした。 英語のテストのスコアが最も高かったのは、 GPT-4 Google の最大の PaLM を含む他のモデルよりも 10% 優れたパフォーマンスを発揮します。 スコアは 86.4% でしたが、専門家グループは 90% でした。
- 2023 年の夏までに、AI は新たなレベルの能力に到達する可能性があります。 ChatGPTを使用するチャットボットです。 GPT-4 アルゴリズムと 優れたパフォーマンス GPT-3 570倍。 さまざまな要素が貢献し、 ChatGPTの成功には、より「人間らしく」なるデザインと、効果と精度を高めるための最先端のデータマイニングと自然言語処理の使用が含まれます。
- マイクロソフトと OpenAI は、XNUMX 月にコラボレーションの更新と、Bing 検索に AI 強化の検索機能を導入する計画を発表しました。 非常に洗練された GPT3.5モデルの後継、 GPT4, 発売されたばかりです、そして自然言語クエリを理解し、より正確な結果を提供する Bing 検索の能力を大幅に強化する可能性があります。 何か問題が発生した場合に備えて、適切なバックアップ計画を立てることをお勧めします。
関連ニュースをもっと読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。