检讨 专业技术
2023 年 8 月 23 日

研究人员挑战大型语言模型“新兴能力”的概念

简单来说

由于突然出现大型语言模型的现象,AGI 末日令人担忧 展示能力 较小的型号似乎没有。

这种现象被称为“大型语言模型的新兴能力”。

《大型语言模型的涌现能力是海市蜃楼吗?》一文的作者认为新兴能力的效果并不是海市蜃楼,而是执行任务能力的可预测增长。

他们表明,至少 92% 的 Big Bench 问题对于大型模型来说不会突然突破,并且随着模型尺寸的增加,模型的质量会平稳且可预测地增长。

在最近对大型语言模型的潜在功能的检查中,研究人员挑战了“新兴能力”的概念,并揭示了其功能的更可预测的方面。 文章标题为“揭示大型语言模型新兴能力的现实”引起了人们对指标的误解,这种误解导致人们错误地认为这些模型会自发地获得高级技能。

研究人员挑战大型语言模型“新兴能力”的概念
信用: Metaverse Post / Stable Diffusion

新兴能力“在大型语言模型的背景下,例如 GPT 系列,引发了人们对这些模型发展出类似于人类意识的不可预见能力的潜力的担忧。 本文断言,这些假设是基于对模型实际行为和功能的错误理解。

常见的现象是,较大的模型似乎获得了新的能力,例如抽象推理、解决问题甚至幽默,被称为“大型语言模型的新兴能力”。 文章的作者认为,这些能力并不像看上去那么自发,而是误导性评估指标的结果。

为了说明他们的观点,研究人员考虑了“猜谜语”的任务,在这个问题中,语言模型需要理解自然语言谜语并用自然语言给出正确答案。 传统上,响应的质量是使用二元指标来评估的:如果响应与正确答案完全匹配,则为 1 分,否则为 0 分。

问题的关键在于该指标对任务复杂性和模型参数数量的敏感性。 研究人员揭示,这种二元度量导致 欺骗性的认知 “新兴能力”。 较小的模型通常在此指标上表现出可忽略不计的准确度 (eps),而较大的模型,尤其是具有高参数计数的模型,似乎达到了显着的准确度水平 (acc > 0.5)。

文章认为,这种明显的能力转变并不表明模型自发地获得了复杂的技能。 相反,模型理解和生成更细致的响应的能力源于对其输出进行更细致的评估。 通过关注概率匹配和语义一致性而不是精确的字符串匹配,研究人员表明 模型的进展 无论规模大小,性能都遵循更合乎逻辑的轨迹。

相关: T9 时代聊天机器人的演变 GPT-1 至 ChatGPT

研究参数变化时模型性能的演变

研究参数变化时模型性能的演变
信用: Metaverse Post / Stable Diffusion

在一项分析调查中,研究人员揭示了被感知的“新兴能力”背后的微妙机制。 大型语言模型。 该研究质疑超离散指标在评估模型性能方面的影响,并阐明随着模型参数的扩展,对其能力进行更具预测性的理解。

扩展语言模型中“新兴能力”的流行概念引发了讨论,并引发了对潜在突破的担忧。 这项研究旨在理清这种现象背后的机制,并解读这些模型是否确实表现出突然的、前所未有的能力,或者这些感知到的进步是否可以归因于不同的原因。

这项研究的核心是对用于衡量模型性能的指标进行细致的评估。 研究人员认为,使用超离散指标,特别是确定精确字符串匹配的传统二进制指标,可能会扭曲大数据的解释。 语言模型能力。 该研究仔细分析了模型生成答案的概率分布如何随着模型参数的变化而演变。

与“新兴能力”的概念相反,该研究揭示了一种更加系统化的趋势。 随着模型规模的增加,其为正确答案分配更高概率、为错误答案分配更低概率的能力也会提高。 这反映出模型在各种规模上熟练解决问题的能力不断增强。 从本质上讲,研究表明模型的学习过程遵循良好的-defi改进的轨迹而不是突然的飞跃。

作者提出了一种范式转变,建议用连续指标代替离散指标。 这一变化提供了更清晰的性能演变图景。 通过分析,研究人员确定大约 92% 大板凳问题 随着模型尺寸的扩大,质量呈现出平稳且可预测的增长。 这一发现挑战了较大模型会经历突然突破的观念,而是强调了更加渐进和预期的进展。

该研究扩展了其见解以验证其主张。 它表明可以使用传统的自动编码器人工模拟相同的“新兴能力”效应,这表明指标的选择会显着影响感知结果。 这一发现扩大了该研究的影响范围,证明其相关性超越了语言模型本身。

研究人员强调,他们的结果并不 defi明确否定大型语言模型中“新兴能力”或意识的潜力。 然而,他们的发现确实鼓励研究人员以细致入微的视角来处理这些主张。 该研究强调细致调查和全面分析的重要性,而不是仓促推断和得出极端结论。

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Lisk 正式过渡到以太坊 Layer 2 并推出 Core v4.0.6

by 艾丽莎·戴维森
2024 年 5 月 08 日
加入我们的时事通讯。
最新消息

Lisk 正式过渡到以太坊 Layer 2 并推出 Core v4.0.6

by 艾丽莎·戴维森
2024 年 5 月 08 日

2024 年 7 月新 Meme 币:加密货币爱好者的 XNUMX 个精选

by 维多利亚·帕尔奇克
2024 年 5 月 08 日

在波动中机构对比特币 ETF 的兴趣增强

通过 13F 文件披露的信息显示,著名机构投资者涉足比特币 ETF,突显出人们越来越接受......

了解更多

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多
加入我们的创新技术社区
了解更多
查看更多
Nexo 发起“狩猎”活动,奖励参与其生态系统的用户 12 万美元的 NEXO 代币
市场 新闻报道 专业技术
Nexo 发起“狩猎”活动,奖励参与其生态系统的用户 12 万美元的 NEXO 代币
2024 年 5 月 8 日
Revolut 的 Revolut X 交易所以零制造商费用和高级分析吸引加密货币交易者
市场 软件 故事和评论 专业技术
Revolut 的 Revolut X 交易所以零制造商费用和高级分析吸引加密货币交易者
2024 年 5 月 8 日
Lisk 正式过渡到以太坊 Layer 2 并推出 Core v4.0.6
新闻报道 专业技术
Lisk 正式过渡到以太坊 Layer 2 并推出 Core v4.0.6
2024 年 5 月 8 日
2024 年 7 月新 Meme 币:加密货币爱好者的 XNUMX 个精选
消化 市场 专业技术
2024 年 7 月新 Meme 币:加密货币爱好者的 XNUMX 个精选
2024 年 5 月 8 日