新闻报道 微博 专业技术
2023 年 5 月 30 日

GPT-4美国律师考试的表现与其声称相矛盾

简单来说

考试 GPT-4在统一律师考试中的表现揭示了估计表现与实际表现之间的差异,强调了透明评估程序和可获取数据的重要性。

OpenAI 鼓励解决差异并开发更具包容性和可靠的人工智能模型评估方法,以赢得信任并确保可信度。

在最近的一次检查中 GPT-4在统一律师考试中的表现(UBE),其准确性受到质疑 OpenAI关于模型成功率的声明。 与最初的断言相反 GPT-4 胜过90%的人,研究结果表明 AI 模型的估计性能与实际性能之间存在显着差异。 这一启示强调了透明评估程序和可访问数据对于验证此类声明的重要性。

GPT-4美国律师考试的表现与其声称相矛盾
@Midjourney

考试重点关注各种因素,以确定申请人的真实能力 GPT-4。 首先, 分析 伊利诺伊州二月份的考试显示 GPT-4的分数接近 90%. 然而,据观察,这些分数受到之前 XNUMX 月考试不及格的重考者的严重影响,因此得分低于总体平均水平。

此外,XNUMX月考试的结果也与此相矛盾。 OpenAI的主张,揭示了 GPT-4 只会 跑赢大市 68%的人,48%的文章。 GPT-4当考虑到来自不同时期的多次测试的官方数据时,对首次参加者(不包括重考)的表现进行了评估,结果为第 63 个百分位,而论文得分则在第 41 个百分位处明显较低。

通过检查通过考试的人(包括获得许可的个人和等待获得许可的人)的表现,获得了另一个视角。 在这方面, GPT-4整体表现排在第 48 个百分位,论文表现更差,排在第 15 个百分位。

虽然这些发现令人不安,但考虑审查过程中人为错误的可能性至关重要。 文章作者强调了解研究人员评估样本的重要性 GPT-4的表现。 缺乏官方数据,尤其是汇总形式的数据,使得对百分位数进行公平比较和评估变得困难。 建立可供所有利益相关者评估的清晰且易于使用的评估技术至关重要。

针对这些担忧, OpenAI 敦促解决这些差异并 提供进一步的见解 进入评估过程。 透明度和公开性对于获得信任和确保 AI 模型在法律等高风险领域的可信度至关重要。

需要说明的是,本文并没有讨论具体取得的分数 GPT-4,据报告为 298。评估该分数的重要性需要对所使用的评分系统有具体的了解。 正如孩子从学校拿到 B 回家可能会值得庆祝或令人失望一样,对 GPT-4的分数取决于所采用的量表。

评估 GPT-4在律师考试中的表现 引起严重关注 关于真实性 OpenAI的最初断言。 估计绩效与实际绩效之间的差距强调了清晰的评估系统和易于获取的数据的重要性。 OpenAI 鼓励应对这些挑战并制定更具包容性和 可靠的人工智能方法 模型评估。

阅读有关人工智能的更多信息:

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

更多文章
达米尔亚拉洛夫
达米尔亚拉洛夫

Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。 

Hot Stories
加入我们的时事通讯。
最新消息

宣判日到来:美国法院考虑司法部的认罪,CZ 的命运悬而未决

赵长鹏将于今天在西雅图的美国法院接受宣判。

了解更多

Samourai Wallet 创始人被指控在暗网交易中协助 2 亿美元

Samourai 钱包创始人的被捕对整个行业来说是一个显着的挫折,凸显了持续的......

了解更多
加入我们的创新技术社区
了解更多
查看更多
BNB Chain推出第二季 Airdrop 联盟计划,与七个新项目合作以获得社区奖励
市场 新闻报道 专业技术
BNB Chain推出第二季 Airdrop 联盟计划,与七个新项目合作以获得社区奖励
2024 年 4 月 30 日
dWallet 网络集成 Monad 以通过原生多链增强它 DeFi 公司能力
企业 新闻报道 专业技术
dWallet 网络集成 Monad 以通过原生多链增强它 DeFi 公司能力
2024 年 4 月 30 日
Animoca Brands 与 Darewise 合作推出 Opal 比特币项目,进军比特币领域
企业 新闻报道 专业技术
Animoca Brands 与 Darewise 合作推出 Opal 比特币项目,进军比特币领域
2024 年 4 月 30 日
HashKey Group 与 GreenBTC.Club 联手,为 Bosera HashKey 比特币 ETF 实现碳中和
企业 新闻报道 专业技术
HashKey Group 与 GreenBTC.Club 联手,为 Bosera HashKey 比特币 ETF 实现碳中和
2024 年 4 月 30 日