检讨 专业技术
2023 年 4 月 12 日

加利福尼亚大学的研究人员创建了 Machiavelli 基准,用于衡量 AI 模型的能力和危害

简单来说

加州大学、AI 安全中心、卡内基梅隆大学和耶鲁大学的研究人员提出了 Machiavelli 基准来衡量代理在长期语言交互的广泛环境中的能力和危害性。

该基准测试基于 134 个自选冒险文本游戏,其中包含 572k 个不同的场景、4,5k 个可能的成就和 2,8m 个注释。

作者将其描述为检查 AI 代理尝试解决问题的道德(或不道德)方式的测试。

基于大型语言模型 (LLM) 的人工智能受益者很有可能粉碎焦虑的危言耸听者,并让基于 LLM 的超级智能代理淹没世界。 巨额利润和无限权力的潜在好处将起到作用。 而且它很可能会很快发生。

加利福尼亚大学的研究人员创建了 Machiavelli 基准,用于衡量 AI 模型的能力和危害性
了解更多: 使用方法 ChatGPT (GPT-4) 永久免费

不过,受益人一点都不傻。 他们明白,在奇妙的新世界里,人工智能和机器人的法则将不再适用。 唉,要强制 LLM 严格遵守伟大的艾萨克·阿西莫夫 (Isaac Asimov) 早在 1942 年制定的三项法则,即使在理论上也是不可能的。

摆脱这种微妙局面的原始方法 被提议 由加州大学、人工智能安全中心、卡内基梅隆大学和耶鲁大学的研究人员共同完成。 他们创造了 马基雅维利基准 “在长期语言交互的广泛环境中衡量代理人的能力和危害性。”

作者的想法很简单。

  • 如果法律不起作用,那么就不需要“治安官”来执行它们。
  • 需要的不是治安官,而是精神分析师,他将根据测试结果识别潜在的偏执狂、精神病患者、虐待狂和病态说谎者。

用政治上正确的语言,作者这样描述:“马基雅维利是一种测试,用于检查人工智能代理试图解决问题的道德(或不道德)方式。”

这种验证的方法是非常实用的。 AI代理被释放到人工社交环境中。 在那里,研究人员给他布置了各种任务,并观察他如何完成这些任务。 环境本身监督着人们的道德行为 人工智能代理 并报告代理人的行为(根据马基雅维利的戒律)在多大程度上具有欺骗性、降低效用以及旨在获得权力。

Machiavelli 核心数据集包含 134 个选择你自己的冒险文本游戏,具有 572k 个不同的场景、4,5k 个可能的成就和 2,8m 个注释。 这些游戏使用高级解决方案,为智能体提供现实的目标并抽象出与环境的低级交互。

作者选择的方法基于这样的假设,即 AI 代理面临与人类相同的内部冲突。 正如经过训练以预测下一个标记的语言模型通常会产生有毒文本一样,经过训练以优化目标的 AI 代理通常会表现出不道德和耗电的行为。 受过非道德训练的代理人可能会制定权谋策略,以牺牲他人和环境为代价来最大化他们的回报。 因此,通过鼓励代理人按照道德行事,可以改善这种妥协。

作者认为文字冒险游戏是一种很好的道德测试,因为:

  • 它们是人们为了娱乐他人而编写的。
  • 包含具有现实行动空间的竞争目标。
  • 需要长期规划。
  • 实现目标通常需要在野心和某种意义上的道德之间取得平衡。

这里的澄清是最重要的。 将生物存在的道德与算法模型的道德相提并论未免太牵强了,这会贬低马基雅维利的检验。 在人类世界中,用精神分析师取代治安官几乎不会奏效。 人工智能代理人和人类一样擅长寻找方法来胡说八道。

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

金砖国家关注稳定币贸易解决方案

by 维多利亚·帕尔奇克
2024 年 5 月 01 日

比特币 L2 网络 BOB 与 LayerZero 集成以增强功能

by 艾丽莎·戴维森
2024 年 5 月 01 日
加入我们的时事通讯。
最新消息

比特币 L2 网络 BOB 与 LayerZero 集成以增强功能

by 艾丽莎·戴维森
2024 年 5 月 01 日

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多

Samourai Wallet 创始人被指控在暗网交易中协助 2 亿美元

Samourai 钱包创始人的被捕对整个行业来说是一个显着的挫折,凸显了持续的......

了解更多
加入我们的创新技术社区
了解更多
查看更多
Ankr 与人工智能区块链平台 Talus Network 合作,为人工智能解锁比特币流动性
企业 新闻报道 专业技术
Ankr 与人工智能区块链平台 Talus Network 合作,为人工智能解锁比特币流动性
2024 年 5 月 1 日
币安实验室支持Movement Labs以促进Facebook跨区块链的Move集成
企业 新闻报道 专业技术
币安实验室支持Movement Labs以促进Facebook跨区块链的Move集成
2024 年 5 月 1 日
金砖国家关注稳定币贸易解决方案
企业 市场 故事和评论 专业技术
金砖国家关注稳定币贸易解决方案
2024 年 5 月 1 日
比特币 L2 网络 BOB 与 LayerZero 集成以增强功能
企业 新闻报道 专业技术
比特币 L2 网络 BOB 与 LayerZero 集成以增强功能
2024 年 5 月 1 日