人工智能研究人员教大型语言模型少撒谎
来自该领域不同角落的 20 多名研究人员共同努力,催生了一个新兴领域—— 代表性工程 (代表E)。 虽然这不是此类探索的第一次,但作者提出了描述性见解并建立了关键基准。
那么,表征工程到底是什么? 它围绕着神经网络拥有“隐藏状态”的概念,尽管它们的名字如此,但它们并没有被隐藏起来。 这些状态是可访问的、可修改的和可观察的(前提是可以访问模型的权重)。 与参数不同,这些是网络对特定输入的“反应”,特别是在 法学硕士,文本输入。 这些隐藏的表征就像模型认知运作的窗口,这一特征与人脑明显不同。
作者将其与认知科学进行了比较,强调了类似探索的潜力。 在神经激活领域,一个类似于大脑神经元的领域,存在着意义的承诺。 正如人脑中的某些神经元与加拿大或诚实等概念相关一样,这些激活可能蕴藏着洞察力。
这里的中心思想是解释我们如何影响这些神经激活以引导模型朝所需的方向发展。 例如,精确定位代表“诚实”的向量,然后从理论上讲,通过朝这个方向推动模型,可以降低其产生欺骗性输出的可能性。 早期的一个实验“推理时间干预:从语言模型中得出真实答案,”证明了这一概念的实用性。
在目前的工作中,研究人员深入研究了几个领域,包括道德、情感、无害和记忆。 他们提出了 LoRRA(低秩表示适应)形式的解决方案,该技术涉及对大约 100 个示例的小型标记数据集进行训练。 每个示例都带有注释,指示诸如虚假之类的属性(尽管存在使用提示的替代方法)。
结果令人信服。 LLAMA-2-70B超越 GPT-4 在 TruthfulQA 基准测试中显着提高,准确率提高了近 59%(69% 与约 XNUMX% 相比)。 此外,研究人员还结合了许多示例,展示了模型在各个方向上的响应变化,揭示了其多功能性和适应性。
这种开创性的方法体现了模型对齐的替代路径,同时提供了模型解释和控制的新颖视角。 这是一个充满希望的前沿领域,对其持续发展的期待是显而易见的。
要通过实际示例进行更深入的探索,您可以访问他们的专用网站: AI-Transparency.org.
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。