新闻报道 专业技术
2023 年 7 月 20 日

斯坦福大学的研究证实 GPT-4 变得越来越笨

简单来说

斯坦福大学和加州大学伯克利分校的 Matei Zaharia 和他的团队进行的一项研究比较了 GPT-4 和 ChatGPT 解决用户对模型有效性的担忧。

该研究评估了模型在四个特定任务上的表现:数学、编码、敏感性和视觉推理。

Matei Zaharia 和他来自斯坦福大学和加州大学伯克利分校的团队 进行的一项研究 比较了性能 GPT-4 至 ChatGPT。 这项调查旨在解决用户对该模型有效性下降的担忧。

斯坦福大学的研究证实 GPT-4 变得越来越笨
信用: Metaverse Post
相关: GPT-4 与 GPT-3:新车型有什么特点?

研究人员设计这项研究是为了评估四项特定任务的模型。 这些任务包括:

  • 数学:模型确定给定数字是质数还是合数的能力。
  • 编码:评估模型生成有意义且功能性代码的能力。
  • 敏感性:分析模型对具有潜在“有毒”内容的问题的回答。
  • 视觉推理:使用 ARC 基准测试模型解决涉及视觉模式的问题的能力。 参与者必须识别一组图像中的模式并应用它们来解决新的示例。

在数学领域,两者 GPT-4 XNUMX 月和 XNUMX 月发布的版本在确定素数和合数方面表现出了一致的准确性。 这些模型显示出处理这些计算的熟练程度,并提供了可靠的结果。

继续编码, GPT-4 与之前的版本相比,它表现出了更高的生成有意义且功能性代码的能力。 该模型的代码生成功能显示出了良好的前景,为开发人员和程序员提供了潜在的好处。

关于敏感性,该研究评估了模型对包含潜在有害或冒犯性内容的问题的反应。 GPT-4 展示了增强的敏感性分析,并显示出在此类情况下提供适当响应的能力有所提高。 这意味着在解决用户对可能出现问题的输出的担忧方面向前迈出了积极的一步。

最后,双方均顺利完成了基于ARC基准的视觉推理任务 GPT-4 版本。 这些模型有效地识别了图像集中的模式,并展示了应用这些模式来解决新示例的能力。 这展示了他们的视觉理解和推理能力。

结果表明 GPT-4 准确率有所下降,正确答案仅略高于 2%。 值得注意的是,这个特定的测试主要评估模型回忆数据的能力,而不是展示其固有的数学能力。 该任务围绕记忆回忆展开,因为该模型缺乏计算验证和推理的能力,特别是在涉及素数时。

ChatGPT 到 XNUMX 月份,业绩指标大幅增长,显着提高了十倍以上。 虽然该研究没有深入探讨导致这种增强的具体因素,但它强调了 ChatGPT数学推理和解决问题能力的进步。

该研究没有评估生成代码的质量或正确性。 相反,这些模型似乎表现出更“定制”的行为,提供代码片段而不确保其功能准确性。
相关: 10 年 2023 多个最佳 AI 照片增强器

质量 GPT-4 和 ChatGPT 在分析他们的编程能力后受到质疑。 然而,仔细观察就会发现一些与第一印象相矛盾的迷人细微差别。

作者没有执行或验证代码的正确性; 他们的评估完全基于其作为 Python 代码的有效性。 此外,这些模型似乎已经学习了使用装饰器的特定代码框架技术,这无意中阻碍了代码执行。

因此,很明显,结果和实验本身都不能被视为模型退化的证据。 相反,这些模型展示了一种不同的生成响应的方法,可能反映了训练中的变化。

测试编程和数学能力 GPT-4 和 ChatGPT 揭示了有趣的发现。 与最初的假设相反,这些模型在某些领域表现出显着的改进,同时在其他领域表现出行为变化。

当谈到编程任务时,两种模型都显示出对“错误”提示的响应有所减少,其中 GPT-4 在这种情况下表现出四倍以上的减少。 此外,在视觉推理任务中,两个模型的响应质量都提高了几个百分点。 这些观察结果表明性能有所进步而不是下降。

然而,数学技能的评估引入了一个有趣的元素。 这些模型始终提供素数作为答案,表明一致的“是”响应。 然而,在向样本中引入复合数后,很明显模型改变了行为并开始提供“否”响应,这表明存在不确定性而不是质量下降。 测试本身很奇特且片面,其结果可归因于模型行为的变化而不是质量的下降。

请务必注意,测试的是 API 版本,而不是基于浏览器的版本。 虽然浏览器中的模型可能经过调整以优化资源,但所附研究并未 defi有力地证明了这个假设。 这种转变的影响可以与实际模型降级相媲美,从而给依赖特定工作的用户带来潜在的挑战 提示 并积累了经验。

在案件 GPT-4 在 API 应用程序中,这些行为偏差可能会产生明显的后果。 如果模型的行为发生变化,根据特定用户的需求和任务开发的代码可能不再按预期运行。

建议用户将类似的测试实践纳入其工作流程中。 通过创建一组提示、随附文本和预期结果,用户可以定期检查其期望与模型响应之间的一致性。 一旦发现任何偏差,就可以采取适当的措施来纠正这种情况。

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Lisk 正式过渡到以太坊 Layer 2 并推出 Core v4.0.6

by 艾丽莎·戴维森
2024 年 5 月 08 日
加入我们的时事通讯。
最新消息

Lisk 正式过渡到以太坊 Layer 2 并推出 Core v4.0.6

by 艾丽莎·戴维森
2024 年 5 月 08 日

2024 年 7 月新 Meme 币:加密货币爱好者的 XNUMX 个精选

by 维多利亚·帕尔奇克
2024 年 5 月 08 日

在波动中机构对比特币 ETF 的兴趣增强

通过 13F 文件披露的信息显示,著名机构投资者涉足比特币 ETF,突显出人们越来越接受......

了解更多

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多
加入我们的创新技术社区
了解更多
查看更多
Nexo 发起“狩猎”活动,奖励参与其生态系统的用户 12 万美元的 NEXO 代币
市场 新闻报道 专业技术
Nexo 发起“狩猎”活动,奖励参与其生态系统的用户 12 万美元的 NEXO 代币
2024 年 5 月 8 日
Revolut 的 Revolut X 交易所以零制造商费用和高级分析吸引加密货币交易者
市场 软件 故事和评论 专业技术
Revolut 的 Revolut X 交易所以零制造商费用和高级分析吸引加密货币交易者
2024 年 5 月 8 日
加密货币交易平台 BitMEX 推出零费用和现金激励的期权交易
企业 市场 新闻报道
加密货币交易平台 BitMEX 推出零费用和现金激励的期权交易
2024 年 5 月 8 日
Lisk 正式过渡到以太坊 Layer 2 并推出 Core v4.0.6
新闻报道 专业技术
Lisk 正式过渡到以太坊 Layer 2 并推出 Core v4.0.6
2024 年 5 月 8 日