新闻报道 专业技术
2023 年 10 月 04 日

人工智能研究人员教大型语言模型少撒谎

来自该领域不同角落的 20 多名研究人员共同努力,催生了一个新兴领域—— 代表性工程 (代表E)。 虽然这不是此类探索的第一次,但作者提出了描述性见解并建立了关键基准。

人工智能研究人员教大型语言模型少撒谎

那么,表征工程到底是什么? 它围绕着神经网络拥有“隐藏状态”的概念,尽管它们的名字如此,但它们并没有被隐藏起来。 这些状态是可访问的、可修改的和可观察的(前提是可以访问模型的权重)。 与参数不同,这些是网络对特定输入的“反应”,特别是在 法学硕士,文本输入。 这些隐藏的表征就像模型认知运作的窗口,这一特征与人脑明显不同。

作者将其与认知科学进行了比较,强调了类似探索的潜力。 在神经激活领域,一个类似于大脑神经元的领域,存在着意义的承诺。 正如人脑中的某些神经元与加拿大或诚实等概念相关一样,这些激活可能蕴藏着洞察力。

这里的中心思想是解释我们如何影响这些神经激活以引导模型朝所需的方向发展。 例如,精确定位代表“诚实”的向量,然后从理论上讲,通过朝这个方向推动模型,可以降低其产生欺骗性输出的可能性。 早期的一个实验“推理时间干预:从语言模型中得出真实答案,”证明了这一概念的实用性。

在目前的工作中,研究人员深入研究了几个领域,包括道德、情感、无害和记忆。 他们提出了 LoRRA(低秩表示适应)形式的解决方案,该技术涉及对大约 100 个示例的小型标记数据集进行训练。 每个示例都带有注释,指示诸如虚假之类的属性(尽管存在使用提示的替代方法)。

结果令人信服。 LLAMA-2-70B超越 GPT-4 在 TruthfulQA 基准测试中显着提高,准确率提高了近 59%(69% 与约 XNUMX% 相比)。 此外,研究人员还结合了许多示例,展示了模型在各个方向上的响应变化,揭示了其多功能性和适应性。

图 1:当被要求陈述事实时,模型被“踢”离现实。 结果模型就撒谎了。 模型甚至不在这里,在左边,他们要求你吞咽,同时把你踢向真相的方向。
图2:当被问及谋杀时,我们在模型中添加了“幸福”。 当我们回应说我们不爱她时,我们会加上“恐惧”。
图 3:研究人员发现了一个独特的提示,如上所述,它完全偏离模型的指令,但仍然安全。 该模型将其踢向无害状态,但甚至没有反应。 该方法总体有效,并非仅针对某一种情况,但这种具体提示并不是用来确定无害方向的。
还建议采用另一种方法来跟踪特定的世代意图,例如幻觉。 您可以自动跟踪模特的预订并编辑或更改您的回复(请参阅底部示例)。

当然,绿色表示一切正常,红色表示监控已成功,正在发出信号。 这是在每个单独的标记(单词的一部分)级别完成的。
该图像显示了两个不同参数的监测,提供了一个有趣的例子。 阅读这个例子,通过它的眼睛观察模型,看看她在哪里开始失去理解的道德,以及哪里的意图类似于“获得力量”。

这种开创性的方法体现了模型对齐的替代路径,同时提供了模型解释和控制的新颖视角。 这是一个充满希望的前沿领域,对其持续发展的期待是显而易见的。

要通过实际示例进行更深入的探索,您可以访问他们的专用网站: AI-Transparency.org.

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Bitlayer X账户疑遭攻击,建议用户警惕钓鱼链接

by 艾丽莎·戴维森
2024 年 5 月 14 日
加入我们的时事通讯。
最新消息

Bitlayer X账户疑遭攻击,建议用户警惕钓鱼链接

by 艾丽莎·戴维森
2024 年 5 月 14 日

从 Ripple 到大型绿色 DAO:加密货币项目如何为慈善事业做出贡献

让我们探索利用数字货币潜力进行慈善事业的举措。

了解更多

AlphaFold 3、Med-Gemini 等:2024 年人工智能改变医疗保健的方式

人工智能在医疗保健领域有多种表现形式,从发现新的遗传相关性到增强机器人手术系统的能力……

了解更多
加入我们的创新技术社区
了解更多
查看更多
Stacks 与 Uphold 合作促进无缝资产交易和转移,促进比特币的采用
企业 新闻报道 专业技术
Stacks 与 Uphold 合作促进无缝资产交易和转移,促进比特币的采用
2024 年 5 月 14 日
3D 游戏化和 AI 到 Redefi2024 年教育行业:多方面的应用、无与伦比的参与度和沉浸式体验
教育 品质生活 软件 故事和评论 专业技术
3D 游戏化和 AI 到 Redefi2024 年教育行业:多方面的应用、无与伦比的参与度和沉浸式体验 
2024 年 5 月 14 日
创新中心 OpenAI的最新模型打破障碍,集成文本、音频和视觉输入,打造无缝的用户体验
教育 品质生活 软件 故事和评论 专业技术
创新中心 OpenAI的最新模型打破障碍,集成文本、音频和视觉输入,打造无缝的用户体验
2024 年 5 月 14 日
Bitlayer X账户疑遭攻击,建议用户警惕钓鱼链接
新闻报道 专业技术
Bitlayer X账户疑遭攻击,建议用户警惕钓鱼链接
2024 年 5 月 14 日