斯坦福大学的研究证实 GPT-4 变得越来越笨
简单来说
斯坦福大学和加州大学伯克利分校的 Matei Zaharia 和他的团队进行的一项研究比较了 GPT-4 和 ChatGPT 解决用户对模型有效性的担忧。
该研究评估了模型在四个特定任务上的表现:数学、编码、敏感性和视觉推理。
Matei Zaharia 和他来自斯坦福大学和加州大学伯克利分校的团队 进行的一项研究 比较了性能 GPT-4 至 ChatGPT。 这项调查旨在解决用户对该模型有效性下降的担忧。
研究人员设计这项研究是为了评估四项特定任务的模型。 这些任务包括:
- 数学:模型确定给定数字是质数还是合数的能力。
- 编码:评估模型生成有意义且功能性代码的能力。
- 敏感性:分析模型对具有潜在“有毒”内容的问题的回答。
- 视觉推理:使用 ARC 基准测试模型解决涉及视觉模式的问题的能力。 参与者必须识别一组图像中的模式并应用它们来解决新的示例。
在数学领域,两者 GPT-4 XNUMX 月和 XNUMX 月发布的版本在确定素数和合数方面表现出了一致的准确性。 这些模型显示出处理这些计算的熟练程度,并提供了可靠的结果。
继续编码, GPT-4 与之前的版本相比,它表现出了更高的生成有意义且功能性代码的能力。 该模型的代码生成功能显示出了良好的前景,为开发人员和程序员提供了潜在的好处。
关于敏感性,该研究评估了模型对包含潜在有害或冒犯性内容的问题的反应。 GPT-4 展示了增强的敏感性分析,并显示出在此类情况下提供适当响应的能力有所提高。 这意味着在解决用户对可能出现问题的输出的担忧方面向前迈出了积极的一步。
最后,双方均顺利完成了基于ARC基准的视觉推理任务 GPT-4 版本。 这些模型有效地识别了图像集中的模式,并展示了应用这些模式来解决新示例的能力。 这展示了他们的视觉理解和推理能力。
ChatGPT 到 XNUMX 月份,业绩指标大幅增长,显着提高了十倍以上。 虽然该研究没有深入探讨导致这种增强的具体因素,但它强调了 ChatGPT数学推理和解决问题能力的进步。
质量 GPT-4 和 ChatGPT 在分析他们的编程能力后受到质疑。 然而,仔细观察就会发现一些与第一印象相矛盾的迷人细微差别。
作者没有执行或验证代码的正确性; 他们的评估完全基于其作为 Python 代码的有效性。 此外,这些模型似乎已经学习了使用装饰器的特定代码框架技术,这无意中阻碍了代码执行。
因此,很明显,结果和实验本身都不能被视为模型退化的证据。 相反,这些模型展示了一种不同的生成响应的方法,可能反映了训练中的变化。
当谈到编程任务时,两种模型都显示出对“错误”提示的响应有所减少,其中 GPT-4 在这种情况下表现出四倍以上的减少。 此外,在视觉推理任务中,两个模型的响应质量都提高了几个百分点。 这些观察结果表明性能有所进步而不是下降。
然而,数学技能的评估引入了一个有趣的元素。 这些模型始终提供素数作为答案,表明一致的“是”响应。 然而,在向样本中引入复合数后,很明显模型改变了行为并开始提供“否”响应,这表明存在不确定性而不是质量下降。 测试本身很奇特且片面,其结果可归因于模型行为的变化而不是质量的下降。
请务必注意,测试的是 API 版本,而不是基于浏览器的版本。 虽然浏览器中的模型可能经过调整以优化资源,但所附研究并未 defi有力地证明了这个假设。 这种转变的影响可以与实际模型降级相媲美,从而给依赖特定工作的用户带来潜在的挑战 提示 并积累了经验。
在案件 GPT-4 在 API 应用程序中,这些行为偏差可能会产生明显的后果。 如果模型的行为发生变化,根据特定用户的需求和任务开发的代码可能不再按预期运行。
建议用户将类似的测试实践纳入其工作流程中。 通过创建一组提示、随附文本和预期结果,用户可以定期检查其期望与模型响应之间的一致性。 一旦发现任何偏差,就可以采取适当的措施来纠正这种情况。
阅读有关人工智能的更多信息:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。