GPT-4 性能优于 GPT-3.5 全面采用各种研究基准
简单来说
GPT-4 已达到比 GPT-3.5 在各种基准上。
这是一项重大成就,因为它表明机器不仅具有类似人类的智能,而且还可以胜过我们,这引发了人们对人工智能的未来及其对就业市场的潜在影响的质疑。
GPT-4 明显优于最先进的(SOTA)模型,包括那些使用额外的训练协议或特定基准设计的模型,以及现有的大语言模型。
GPT-4 取得了比 GPT-3.5 在各种基准上。 这对机器来说是一个重大突破,因为它证明它们现在不仅可以解决最初设计的问题,而且可以比大学生做得更好。
查看此结果时需要考虑一些事项。 首先, GPT-4 没有接受过针对这些考试的任何具体培训。 它通过使用最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买 2022-2023 年版本的练习考试来进行。 其次,值得注意的是, GPT-4的表现可能不一定反映人类测试者的能力,因为它基于不同的原理和算法。
这是一项重大成就,因为 表明 机器不仅具有类似人类的智能,而且还可以胜过我们。 这为机器可以承担越来越复杂的任务的未来铺平了道路,最终导致它们可以在日常生活中协助我们的未来。
GPT-4例如,通过了模拟律师考试,成绩位于考生前 10%; GPT-3.5的分数处于倒数10%。 这一重大改进 GPT-4其性能得益于其更大的训练数据和改进的架构。 预计它将在自然语言处理和自动写作等各个领域有广泛的应用。
大多数最先进的 (SOTA) 模型,包括那些可能使用额外训练协议或基准特定设计的模型,以及现有的大型模型 语言模型,明显优于 GPT-4.
在内部,开发人员一直在利用 GPT-4,这对编程、销售、支持和内容审核等活动产生了重大影响。 我们的对齐方法的第二阶段正在进行中,开发人员使用它来帮助人类审查人工智能结果。
MMLU(Massive Multi-Task Language Understanding)数据集包含来自不同任务中语言理解的非常广泛主题的问题(跨越 57 个领域,包括数学、生物学、法律、社会和人文科学等)。 这个问题有四种可能的答案,其中一种是正确的。 也就是说,随机猜测显示 25% 正确答案的结果。 有关问题及其困难的示例,请参见下图。 一般的 person-marker(也就是说,这不是科学家,不是教授——兼职做标记的普通人)正确回答了 35% 的问题; 但是,专家可以达到 +/- 90% 的分数。
最初,整个数据集都是英文的。 但是,如果问题和答案被翻译成其他语言,尤其是不太常见的语言怎么办? 这个模型对他们有用吗? 在本次测试中,使用 Microsoft Azure Translate 服务进行翻译。 翻译并不完美; 在某些情况下,重要信息会丢失。 然而,即使在这种情况下, GPT-4 在其他语言中表现良好。 在 MMLU 的翻译版本中, GPT-4 在所检查的 24 种语言中,有 26 种语言的英语水平优于其他大型模型(包括 Google 的)。
更重要的是, GPT-4 在稀有语言中的表现优于 ChatGPT 用英语做了(ChatGPT 得分为 70.1%,而新型号的泰语得分为 71.8%)。 英语考试得分最高, GPT-4 比其他模型(包括 Google 最大的 PaLM)性能好 10%。 它的得分为86.4%,而专家组的得分为90%。
- 到 2023 年夏天,人工智能可能会达到一个新的水平,这要归功于 ChatGPT,一个聊天机器人,使用 GPT-4 算法和 性能优于 GPT-3 乘以570。 多种元素有助于 ChatGPT的成功,包括其设计更加“人性化”,以及使用尖端的数据挖掘和自然语言处理来提高其有效性和准确性。
- 微软和 OpenAI 一月份宣布了双方的合作续约,并计划让 Bing 搜索采用人工智能增强的查找功能。 非常复杂的 GPT3.5型号的更换, GPT4, 刚刚推出,它有可能大大增强 Bing 搜索理解自然语言查询和提供更准确结果的能力。 有一个好的备份计划是个好主意,以防出现问题。
阅读更多相关新闻:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。