ニュースレポート テクノロジー
2023 年 3 月 15 日

GPT-4 優れた性能 GPT-3.5 さまざまな研究ベンチマークを全面的に評価

簡単に言えば

  GPT-4 よりも高い成績基準を達成している GPT-3さまざまなベンチマークで.5。

これは、機械が人間のような知性を備えているだけでなく、人間よりも優れた能力を発揮できることを示しているため、大きな成果であり、AI の将来と雇用市場への影響の可能性について疑問を投げかけています。

GPT-4 追加のトレーニング プロトコルやベンチマーク固有の設計を使用するモデルや、既存の大きな言語モデルを含む最先端 (SOTA) モデルよりもパフォーマンスが大幅に優れています。

  GPT-4 よりも高いスコアを達成しました GPT-3さまざまなベンチマークで.5。 これは、機械が本来の目的で設計された問題を解決できるだけでなく、大学生よりもうまく解決できることを証明したため、機械にとって大きな進歩です。

GPT-4 優れたパフォーマンス GPT-3さまざまな研究ベンチマークで全面的に .5 を獲得

この結果を見る際に考慮すべき点がいくつかあります。 まず、 GPT-4 これらの試験のための特別なトレーニングは受けていません。 最新の公開テスト (オリンピックおよび AP の自由回答問題の場合) を使用するか、2022 ~ 2023 年版の模擬試験を購入することで進められました。 第二に、次のことに注意することが重要です。 GPT-4のパフォーマンスは、異なる原則とアルゴリズムに基づいて動作するため、必ずしも人間の受験者の能力を反映しているとは限りません。

これは大きな成果として それが示している 機械は人間のような知性を発揮できるだけでなく、私たちよりも優れた性能を発揮することができます。 これは、機械がますます複雑なタスクを引き受けることができる未来への道を開き、最終的には私たちの日常生活を機械が支援できる未来につながります.

  GPT-4特定のタスクで人間を上回る能力があるため、人間の将来について疑問が生じます。 人工知能 雇用市場への潜在的な影響。 また、AI が倫理的かつ責任を持って使用されることを保証するために、この分野での継続的な研究開発の必要性も強調しています。
続きを読む: 5 年に最も期待される 2023 つ以上の Text-to-Image AI モデル

GPT-4たとえば、模擬司法試験に受験者の上位 10% の得点で合格します。 GPT-3.5のスコアは下位10%でした。 この大幅な改善により、 GPT-4のパフォーマンスは、より大きなトレーニング データと改善されたアーキテクチャによるものです。 自然言語処理や自動筆記など、さまざまな分野での幅広い応用が期待されています。

 
GPT-4 これらの専門的および学術的な試験の大部分で人間レベルのパフォーマンスを示します。 特に、統一司法試験の模擬版に合格し、受験者の上位 10% のスコアを獲得しました。 試験におけるモデルの機能は主に事前トレーニング プロセスに由来するものと思われ、RLHF による大きな影響は受けません。 多肢選択式の質問では、両方の基本 GPT-4 モデルと RLHF モデルは、テストされた試験の開発者全体で平均して同等の成績を収めました。

追加のトレーニング プロトコルやベンチマーク固有の設計を使用するモデルや、既存の大きなモデルを含む、最先端 (SOTA) モデルの大部分 言語モデル、が大幅に上回っています。 GPT-4.

GPT-4学力基準の観点からの成績。 開発者のコ​​ントラスト GPT-4 LM で評価された数ショットに対する最適な SOTA と、ベンチマーク固有のトレーニングによる最適な SOTA を使用します。 DROPを除いて、 GPT-4 すべてのベンチマークおよびベンチマーク固有のトレーニングを使用した SOTA で現在のすべての LM よりも優れたパフォーマンスを発揮します。

開発者は社内で次のことを利用しています。 GPT-4、プログラミング、販売、サポート、コンテンツモデレーションなどの活動に大きな影響を与えています。 私たちの調整方法の第 XNUMX 段階は現在進行中であり、開発者はこの方法を人間による AI 結果のレビューを支援するために使用しています。

MMLU (Massive Multi-Task Language Understanding) データセットには、さまざまなタスク (数学、生物学、法律、社会科学、人間科学などを含む 57 のドメインにまたがる) における言語理解に関する非常に幅広いトピックからの質問が含まれています。 この質問には 25 つの答えがあり、そのうちの 35 つが正解です。 つまり、ランダムな推測では、90% の正答率の結果が示されます。 質問の例とその難しさについては、下の図を参照してください。 平均的なパーソン マーカー (つまり、これは科学者でも教授でもなく、マークアップとして月明かりを浴びる普通の人でもありません) は、質問の XNUMX% に正しく答えます。 ただし、専門家は +/- XNUMX% のスコアに達する可能性があります。

のパフォーマンス GPT-4 MMLU では英語の以前のモデルと比較して、さまざまな言語で使用できます。 GPT-4 ラトビア語、ウェールズ語、スワヒリ語などの低リソース言語を含む、調査した大多数の言語の既存の言語モデルの英語パフォーマンスを上回っています。
続きを読む: Google よりも AI を活用した Bing を使用する 5 つの理由

もともと、データセット全体は英語でした。 しかし、質問と回答が他の言語、特に一般的ではない言語に翻訳されたらどうなるでしょうか? このモデルは何らかの形で彼らに役立つでしょうか? このテストでは、Microsoft Azure Translate サービスを翻訳に使用しました。 翻訳は完璧ではありません。 場合によっては、重要な情報が失われます。 ただし、この場合でも、 GPT-4 他の言語でもうまく機能します。 MMLU の翻訳版では、 GPT-4 調査対象の 24 言語のうち 26 言語において、他の大規模モデル (Google を含む) の英語レベルを上回っています。

そのうえ、 GPT-4 まれな言語でより優れたパフォーマンスを発揮します ChatGPT 英語でやった(ChatGPT タイ語のスコアは 70.1% でしたが、タイ語の新モデルのスコアは 71.8% でした。 英語のテストのスコアが最も高かったのは、 GPT-4 Google の最大の PaLM を含む他のモデルよりも 10% 優れたパフォーマンスを発揮します。 スコアは 86.4% でしたが、専門家グループは 90% でした。

  • 2023 年の夏までに、AI は新たなレベルの能力に到達する可能性があります。 ChatGPTを使用するチャットボットです。 GPT-4 アルゴリズムと 優れたパフォーマンス GPT-3 570倍。 さまざまな要素が貢献し、 ChatGPTの成功には、より「人間らしく」なるデザインと、効果と精度を高めるための最先端のデータマイニングと自然言語処理の使用が含まれます。
  • マイクロソフトと OpenAI は、XNUMX 月にコラボレーションの更新と、Bing 検索に AI 強化の検索機能を導入する計画を発表しました。 非常に洗練された GPT3.5モデルの後継、 GPT4, 発売されたばかりです、そして自然言語クエリを理解し、より正確な結果を提供する Bing 検索の能力を大幅に強化する可能性があります。 何か問題が発生した場合に備えて、適切なバックアップ計画を立てることをお勧めします。

関連ニュースをもっと読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

より多くの記事
ダミル・ヤラロフ
ダミル・ヤラロフ

Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。 

Hot Stories

Injective が AltLayer と提携して inEVM にセキュリティを再構築

by アリサ・デビッドソン
2024 年 5 月 03 日
ニュースレターにご参加ください。
最新ニュース

Injective が AltLayer と提携して inEVM にセキュリティを再構築

by アリサ・デビッドソン
2024 年 5 月 03 日

ボラティリティの中でビットコインETFへの機関投資家の意欲が高まる

13Fの提出書類による開示では、著名な機関投資家がビットコインETFに手を出していることが明らかになり、...

詳細を知りたい

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
Injective が AltLayer と提携して inEVM にセキュリティを再構築
ビジネス ニュースレポート テクノロジー
Injective が AltLayer と提携して inEVM にセキュリティを再構築
2024 年 5 月 3 日
MASA が窓口と提携して MASA 貸付プールを導入し、基地内での USDC 借入を可能にします
マーケット ニュースレポート テクノロジー
MASA が窓口と提携して MASA 貸付プールを導入し、基地内での USDC 借入を可能にします
2024 年 5 月 3 日
ベロドロームは今後数週間以内にスーパーチェーンのベータ版をリリースし、OPスタックレイヤー2ブロックチェーン全体に拡張します
マーケット ニュースレポート テクノロジー
ベロドロームは今後数週間以内にスーパーチェーンのベータ版をリリースし、OPスタックレイヤー2ブロックチェーン全体に拡張します
2024 年 5 月 3 日
CARV、データレイヤーを分散化して報酬を分配するためのAethirとの提携を発表
ビジネス ニュースレポート テクノロジー
CARV、データレイヤーを分散化して報酬を分配するためのAethirとの提携を発表
2024 年 5 月 3 日
CRYPTOMERIA LABS PTE。 株式会社。