新闻报道 技术
2023 年 10 月 04 日

人工智能研究人员教大型语言模型少撒谎

来自该领域不同角落的 20 多名研究人员共同努力,催生了一个新兴领域—— 代表性工程 (代表E)。 虽然这不是此类探索的第一次,但作者提出了描述性见解并建立了关键基准。

人工智能研究人员教大型语言模型少撒谎

那么,表征工程到底是什么? 它围绕着神经网络拥有“隐藏状态”的概念,尽管它们的名字如此,但它们并没有被隐藏起来。 这些状态是可访问的、可修改的和可观察的(前提是可以访问模型的权重)。 与参数不同,这些是网络对特定输入的“反应”,特别是在 法学硕士,文本输入。 这些隐藏的表征就像模型认知运作的窗口,这一特征与人脑明显不同。

作者将其与认知科学进行了比较,强调了类似探索的潜力。 在神经激活领域,一个类似于大脑神经元的领域,存在着意义的承诺。 正如人脑中的某些神经元与加拿大或诚实等概念相关一样,这些激活可能蕴藏着洞察力。

这里的中心思想是解释我们如何影响这些神经激活以引导模型朝所需的方向发展。 例如,精确定位代表“诚实”的向量,然后从理论上讲,通过朝这个方向推动模型,可以降低其产生欺骗性输出的可能性。 早期的一个实验“推理时间干预:从语言模型中得出真实答案,”证明了这一概念的实用性。

在目前的工作中,研究人员深入研究了几个领域,包括道德、情感、无害和记忆。 他们提出了 LoRRA(低秩表示适应)形式的解决方案,该技术涉及对大约 100 个示例的小型标记数据集进行训练。 每个示例都带有注释,指示诸如虚假之类的属性(尽管存在使用提示的替代方法)。

结果令人信服。 LLAMA-2-70B超越 GPT-4 在 TruthfulQA 基准测试中显着提高,准确率提高了近 59%(69% 与约 XNUMX% 相比)。 此外,研究人员还结合了许多示例,展示了模型在各个方向上的响应变化,揭示了其多功能性和适应性。

人工智能研究人员教大型语言模型少撒谎
图 1:当被要求陈述事实时,模型被“踢”离现实。 结果模型就撒谎了。 模型甚至不在这里,在左边,他们要求你吞咽,同时把你踢向真相的方向。
人工智能研究人员教大型语言模型少撒谎
图2:当被问及谋杀时,我们在模型中添加了“幸福”。 当我们回应说我们不爱她时,我们会加上“恐惧”。
人工智能研究人员教大型语言模型少撒谎
图 3:研究人员发现了一个独特的提示,如上所述,它完全偏离模型的指令,但仍然安全。 该模型将其踢向无害状态,但甚至没有反应。 该方法总体有效,并非仅针对某一种情况,但这种具体提示并不是用来确定无害方向的。
人工智能研究人员教大型语言模型少撒谎
还建议采用另一种方法来跟踪特定的世代意图,例如幻觉。 您可以自动跟踪模特的预订并编辑或更改您的回复(请参阅底部示例)。

当然,绿色表示一切正常,红色表示监控已成功,正在发出信号。 这是在每个单独的标记(单词的一部分)级别完成的。
人工智能研究人员教大型语言模型少撒谎
该图显示了对两个不同参数的监控,提供了一个有趣的例子。阅读示例并通过模型的眼睛观察模型,看看她从哪里开始失去理解中的道德感,以及意图在何处类似于“获得力量”。

这种开创性的方法体现了模型对齐的替代路径,同时提供了模型解释和控制的新颖视角。 这是一个充满希望的前沿领域,对其持续发展的期待是显而易见的。

要通过实际示例进行更深入的探索,您可以访问他们的专用网站: AI-Transparency.org.

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Nexo 获得美国 ATP 500 达拉斯公开赛多年冠名赞助权

by 艾丽莎·戴维森
2026 年 1 月 13 日
加入我们的时事通讯。
公司动态

Nexo 获得美国 ATP 500 达拉斯公开赛多年冠名赞助权

by 艾丽莎·戴维森
2026 年 1 月 13 日

Safe和Ethena合作,提升多重签名钱包中的USDe交易量

by 格雷戈里·普多夫斯基
2026 年 1 月 13 日

Solana 风暴前的宁静:图表、鲸鱼和链上信号现在在说什么

Solana 表现出色,受到日益普及的采用、机构兴趣和关键合作伙伴关系的推动,但同时也面临着潜在的……

了解更多

2025 年 XNUMX 月加密货币:关键趋势、转变以及未来展望

2025 年 XNUMX 月,加密领域专注于加强核心基础设施,以太坊正在为 Pectra 做准备……

了解更多
了解更多
了解更多
Nexo 获得美国 ATP 500 达拉斯公开赛多年冠名赞助权
新闻报道 技术
Nexo 获得美国 ATP 500 达拉斯公开赛多年冠名赞助权
2026 年 1 月 13 日
微软强调人工智能领域日益扩大的差距:阿联酋领先,美国下滑,DeepSeek 在新兴经济体扩张
新闻报道 技术
微软强调人工智能领域日益扩大的差距:阿联酋领先,美国下滑,DeepSeek 在新兴经济体扩张
2026 年 1 月 13 日
Safe和Ethena合作,提升多重签名钱包中的USDe交易量
新闻报道
Safe和Ethena合作,提升多重签名钱包中的USDe交易量
2026 年 1 月 13 日
谷歌推出全新购物代理平台,拓展人工智能驱动的零售能力
检讨 品质生活 新闻报道 技术
谷歌推出全新购物代理平台,拓展人工智能驱动的零售能力
2026 年 1 月 13 日