新闻报道 技术
2023 年 7 月 04 日

开发商推出新 GPT-4-基于自我评估法学硕士的方法,与人类评估达到 80% 的一致性

简单来说

LLM评估方法不断发展,以提高评估语言模型的准确性和公平性。

作者使用了 GPT-4 比较方法,涉及数以万计的真实人类反应,收集数据并解决估计偏差、冗长偏好、自我断言偏差和有限推理能力等挑战。

在最近一系列讨论的文章中 法学硕士的评估,强调了可扩展性和成本效益导致采用 GPT-4 比较方法。 这涉及使用一个模型来评估同一问题的不同答案,选择最佳答案来创建排名系统。 如前所述,该方法有明显的局限性。 的创造者 LMSYS.org 评级几个月前引入了这种方法,现在决定用新的评估方法取代它。

开发商推出新 GPT-4-基于自我评估法学硕士的方法,与人类评估达到 80% 的一致性
信用: Metaverse Post (mpost.io)

在工作过程中,该团队收集了数以万计的真实人类反应,比较了对不同答案的偏好。 这个广泛的数据集使他们能够更准确地了解与每个响应相关的利弊。 新的评估方法仍然依赖于 GPT-4,采用自动化和可扩展性。 每个人都可以以实惠的价格使用它。

为了确保评估过程的公平性 GPT-4,解决了以下挑战:

  1. 位置偏好导致的估计偏差。
  2. 倾向于冗长,喜欢较长的答案而不考虑其质量。
  3. 自断偏见,偏好倾向于模型自己的答案或 模型训练 在他们身上。
  4. 评估数学和逻辑问题时的推理能力有限。
开发商推出新 GPT-4-基于自我评估法学硕士的方法,与人类评估达到 80% 的一致性
以下是 80 个评估问题的一些插图。 对于这三组中的每一组,同一问题都有两个部分。
您可以在专门网站上查看所有问题、所有模型回答以及 20 多个模型之间的成对比较(https://huggingface.co/spaces/lmsys/mt-bench)。 与往常一样,推理和编码部分包含最有趣的示例。

在实施各种解决方案来缓解这些问题后,作者发现强大的语言模型,例如 GPT-4 符合人类偏好,评价一致性超过80%。 这意味着在 80% 的情况下,模型的评估与人类评分一致,其一致性程度相当于两个不同的人类评估者处理同一任务。 OpenAI 还报告称,即使是密切合作的文章共同作者,在 82-86% 的情况下也会达成一致。

开发商推出新 GPT-4-基于自我评估法学硕士的方法,与人类评估达到 80% 的一致性
该基准测试展示了模型在不同问题组中的显着差异。 最大的差距在于推理和编码,模型水平远远超出 GPT-4。 然而,模型既可以用于角色扮演,也可以用于编写常见文本。 作者在这里发布了新的 Vicuna v1.3 模型,其参数大小范围为 7 到 33 亿个 https://github.com/lm-sys/FastChat/tree/main#vicuna-weights.

值得注意的是,虽然这不是一种“完美的评估方式”,但它比以前的方法有了显着的改进。 作者现在的目标是扩展他们的数据集,以包含 1000 个问题,而不是 80 个,并且他们正在积极改进提示,以减少问题中的偏见。 GPT-4 估计。 他们考虑了两种更客观的评估:一种基于真人投票(称为“竞技场”,模型竞争的地方),使用 Elo 点进行投票,另一种基于来自 MMLU基准.

开发商推出新 GPT-4-基于自我评估法学硕士的方法,与人类评估达到 80% 的一致性
另一个有趣的事实是 GPT-4 模型是回答第二个问题时唯一保持质量的模型。 这有些争议,原因有两个:1)模型仍然自我评估2)虽然差异可以忽略不计,但它说明了其他模型在遵循多轮对话和指令方面有多么不足。

增强模型比较 GPT-4

随着最近 Vicuna、Koala 和 Dolly 等各种语言模型的出现,使用比较模型的实践 GPT-4 已经受到欢迎。 提供了一个独特的提示,其中插入同一问题的两个答案,一个来自模型 A,另一个来自模型 B。 然后评估者被要求对答案进行 1 到 8 的评分,其中 1 表示模型 A 明显更好,8 表示模型 B,4-5 表示平局。 2-3 和 6-7 的分数表示“更好的模型”。

开发商推出新 GPT-4-基于自我评估法学硕士的方法,与人类评估达到 80% 的一致性
交换模型 A 和 B 不会对分数产生显着影响(例如,7 变成 2,8 变成 1),这似乎是合乎逻辑的,并且一个模型的持续优越性将导致其胜利。 然而,出现了“位置偏差”现象,即模型倾向于更频繁地为模型 A(一)分配更高的分数。 由于提示模式是随机洗牌的,因此这种偏差预计会在 4-5 中点附近表现出对称性。 人类评估会考虑这种偏差以确保公平性。

富有洞察力的研究 由 HuggingFace 团队进行,他们评估了 329 个模型对 XNUMX 个不同问题的答案。 在有趣的发现中,该研究揭示了以下内容:

  1. 基于成对比较的四个模型的排名在人类评估和评估之间是一致的 GPT-4,尽管观察到不同的 Elo 评级差距。 这表明该模型可以区分好答案和坏答案,但难以处理与人类评估不太相符的边界情况。
  2. 有趣的是,该模型对其他模型的答案进行了评分,特别是那些接受过训练的模型 GPT-4 答案,高于真实的人类答案。
  3. 之间存在高度相关性(Pearson=0.96) GPT-4 分数和响应中唯一标记的数量。 这表明该模型不会评估答案的质量,强调需要谨慎解释。

这些发现强调了在使用时仔细评估的重要性 GPT-4 用于模型比较。 虽然该模型可以在某种程度上区分答案,但其评估可能并不总是与人类的判断完全一致,尤其是在微妙的场景中。 在仅依赖时,务必谨慎行事并考虑其他因素 GPT-4 分数。 通过完善提示并纳入多样化的评估,研究人员旨在提高测试的可靠性和准确性 GPT-4 估计。

这篇文章是在以下人士的支持下撰写的 电报频道社区.

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories

Polygon推出sPOL,解锁3.6亿美元资金并提升质押者奖励

by 艾丽莎·戴维森
2026 年 4 月 15 日
加入我们的时事通讯。
公司动态

Polygon推出sPOL,解锁3.6亿美元资金并提升质押者奖励

by 艾丽莎·戴维森
2026 年 4 月 15 日

Solana 风暴前的宁静:图表、鲸鱼和链上信号现在在说什么

Solana 表现出色,受到日益普及的采用、机构兴趣和关键合作伙伴关系的推动,但同时也面临着潜在的……

了解更多

2025 年 XNUMX 月加密货币:关键趋势、转变以及未来展望

2025 年 XNUMX 月,加密领域专注于加强核心基础设施,以太坊正在为 Pectra 做准备……

了解更多
阅读更多
了解更多
人工智能安全军备竞赛内幕:为什么 OpenAI 开放网络工具——同时收紧使用权限
检讨 技术
人工智能安全军备竞赛内幕:为什么 OpenAI 开放网络工具——同时收紧使用权限
2026 年 4 月 15 日
Polygon推出sPOL,解锁3.6亿美元资金并提升质押者奖励
新闻报道 技术
Polygon推出sPOL,解锁3.6亿美元资金并提升质押者奖励
2026 年 4 月 15 日
Bitget推出差价合约跟单交易,以满足不断增长的跨市场交易需求
新闻报道 技术
Bitget推出差价合约跟单交易,以满足不断增长的跨市场交易需求
2026 年 4 月 14 日
Tether推出钱包,为全球市场的终端用户提供自主托管的数字资产访问方式
新闻报道 技术
Tether推出钱包,为全球市场的终端用户提供自主托管的数字资产访问方式
2026 年 4 月 14 日