新闻报道 技术
2023 年 3 月 15 日

GPT-4 性能优于 GPT-3.5 全面采用各种研究基准

简单来说

此 GPT-4 已达到比 GPT-3.5 在各种基准上。

这是一项重大成就,因为它表明机器不仅具有类似人类的智能,而且还可以胜过我们,这引发了人们对人工智能的未来及其对就业市场的潜在影响的质疑。

GPT-4 明显优于最先进的(SOTA)模型,包括那些使用额外的训练协议或特定基准设计的模型,以及现有的大语言模型。

GPT-4 取得了比 GPT-3.5 在各种基准上。 这对机器来说是一个重大突破,因为它证明它们现在不仅可以解决最初设计的问题,而且可以比大学生做得更好。

GPT-4 性能优于 GPT-3.5 全面采用各种研究基准

查看此结果时需要考虑一些事项。 首先, GPT-4 没有接受过针对这些考试的任何具体培训。 它通过使用最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买 2022-2023 年版本的练习考试来进行。 其次,值得注意的是, GPT-4的表现可能不一定反映人类测试者的能力,因为它基于不同的原理和算法。

这是一项重大成就,因为 表明 机器不仅具有类似人类的智能,而且还可以胜过我们。 这为机器可以承担越来越复杂的任务的未来铺平了道路,最终导致它们可以在日常生活中协助我们的未来。

GPT-4 性能优于 GPT-3.5 全面采用各种研究基准
此 GPT-4在某些任务中超越人类的能力引发了人们对未来的疑问 人工智能 及其对就业市场的潜在影响。 它还强调了在该领域继续研究和开发的必要性,以确保以合乎道德和负责任的方式使用人工智能。
了解更多: 5 年最受期待的 2023 种以上文本到图像 AI 模型

GPT-4例如,通过了模拟律师考试,成绩位于考生前 10%; GPT-3.5的分数处于倒数10%。 这一重大改进 GPT-4其性能得益于其更大的训练数据和改进的架构。 预计它将在自然语言处理和自动写作等各个领域有广泛的应用。

GPT-4 性能优于 GPT-3.5 全面采用各种研究基准
 
GPT-4 在大多数专业和学术考试中都表现出了人类水平的表现。 值得注意的是,它通过了模拟版的统一律师考试,成绩位于考生前 10% 之内。 该模型的考试能力似乎主要源于预训练过程,并且不受 RLHF 的显着影响。 在多项选择题中,基础 GPT-4 模型和 RLHF 模型在接受测试的开发人员中平均表现同样出色。

大多数最先进的 (SOTA) 模型,包括那些可能使用额外训练协议或基准特定设计的模型,以及现有的大型模型 语言模型,明显优于 GPT-4.

GPT-4 性能优于 GPT-3.5 全面采用各种研究基准
GPT-4在学术标准方面的表现。 开发商对比 GPT-4 具有 LM 评估的少数样本的最佳 SOTA 以及具有特定基准训练的最佳 SOTA。 除了 DROP 之外, GPT-4 在所有基准测试和针对特定基准训练的 SOTA 上均优于当前所有 LM。

在内部,开发人员一直在利用 GPT-4,这对编程、销售、支持和内容审核等活动产生了重大影响。 我们的对齐方法的第二阶段正在进行中,开发人员使用它来帮助人类审查人工智能结果。

MMLU(Massive Multi-Task Language Understanding)数据集包含来自不同任务中语言理解的非常广泛主题的问题(跨越 57 个领域,包括数学、生物学、法律、社会和人文科学等)。 这个问题有四种可能的答案,其中一种是正确的。 也就是说,随机猜测显示 25% 正确答案的结果。 有关问题及其困难的示例,请参见下图。 一般的 person-marker(也就是说,这不是科学家,不是教授——兼职做标记的普通人)正确回答了 35% 的问题; 但是,专家可以达到 +/- 90% 的分数。

GPT-4 性能优于 GPT-3.5 全面采用各种研究基准
的表演 GPT-4 与 MMLU 上早期的英语模型相比,该模型具有多种语言版本。 GPT-4 对于大多数被检查的语言,包括拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言,其性能超过了现有语言模型的英语性能。
了解更多: 使用 AI-Powered Bing 而不是 Google 的 5 个理由

最初,整个数据集都是英文的。 但是,如果问题和答案被翻译成其他语言,尤其是不太常见的语言怎么办? 这个模型对他们有用吗? 在本次测试中,使用 Microsoft Azure Translate 服务进行翻译。 翻译并不完美; 在某些情况下,重要信息会丢失。 然而,即使在这种情况下, GPT-4 在其他语言中表现良好。 在 MMLU 的翻译版本中, GPT-4 在所检查的 24 种语言中,有 26 种语言的英语水平优于其他大型模型(包括 Google 的)。

更重要的是, GPT-4 在稀有语言中的表现优于 ChatGPT 用英语做了(ChatGPT 得分为 70.1%,而新型号的泰语得分为 71.8%)。 英语考试得分最高, GPT-4 比其他模型(包括 Google 最大的 PaLM)性能好 10%。 它的得分为86.4%,而专家组的得分为90%。

  • 到 2023 年夏天,人工智能可能会达到一个新的水平,这要归功于 ChatGPT,一个聊天机器人,使用 GPT-4 算法和 性能优于 GPT-3 乘以570。 多种元素有助于 ChatGPT的成功,包括其设计更加“人性化”,以及使用尖端的数据挖掘和自然语言处理来提高其有效性和准确性。
  • 微软和 OpenAI 一月份宣布了双方的合作续约,并计划让 Bing 搜索采用人工智能增强的查找功能。 非常复杂的 GPT3.5型号的更换, GPT4, 刚刚推出,它有可能大大增强 Bing 搜索理解自然语言查询和提供更准确结果的能力。 有一个好的备份计划是个好主意,以防出现问题。

阅读更多相关新闻:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

2026年最有前途的区块链应用

by 艾丽莎·戴维森
2026 年 2 月 17 日

2026年值得关注的元宇宙游戏开发商

by 艾丽莎·戴维森
2026 年 2 月 17 日
加入我们的时事通讯。
公司动态

2026年最有前途的区块链应用

by 艾丽莎·戴维森
2026 年 2 月 17 日

2026年值得关注的元宇宙游戏开发商

by 艾丽莎·戴维森
2026 年 2 月 17 日

Solana 风暴前的宁静:图表、鲸鱼和链上信号现在在说什么

Solana 表现出色,受到日益普及的采用、机构兴趣和关键合作伙伴关系的推动,但同时也面临着潜在的……

了解更多

2025 年 XNUMX 月加密货币:关键趋势、转变以及未来展望

2025 年 XNUMX 月,加密领域专注于加强核心基础设施,以太坊正在为 Pectra 做准备……

了解更多
阅读更多
了解更多
2026年值得关注的元宇宙游戏开发商
排行榜 新闻报道 技术
2026年值得关注的元宇宙游戏开发商
2026 年 2 月 17 日
Centrifuge与Pharos合作,加强机构资产的链上分销基础设施
业务 新闻报道 技术
Centrifuge与Pharos合作,加强机构资产的链上分销基础设施
2026 年 2 月 17 日
2026年最有前途的区块链应用
新闻报道 技术
2026年最有前途的区块链应用
2026 年 2 月 17 日
分析师称,比特币在活跃度达到峰值后进入新的积累周期,预示着趋势转变
市场领域 新闻报道 技术
分析师称,比特币在活跃度达到峰值后进入新的积累周期,预示着趋势转变
2026 年 2 月 17 日