OpenAI 发布 Evals,一个用于评估 AI 模型的开源软件框架
简单来说
OpenAI 希望众包基准来评估人工智能模型,例如 GPT-4.
支付处理公司 Stripe 已经使用 Evals 来衡量其支付的准确性 GPT- 驱动的文档工具。
OpenAI 将授予 GPT-4 那些贡献高质量评估的人可以在有限的时间内访问。
伴随着公告 GPT-4, OpenAI 宣布了开源软件框架 OpenAI 评估。 该工具旨在创建和运行基准测试来评估模型的性能,例如 GPT-4。 与埃瓦尔斯一起, OpenAI 希望众包人工智能模型测试的基准。
“我们使用 Evals 来指导我们模型的开发(识别缺点和防止回归),我们的用户可以应用它来跟踪模型版本(现在将定期发布)和不断发展的产品集成的性能,”该公司在A 博客文章.
Stripe 是一家受欢迎的支付处理公司,它已经使用 Evals 来补充其人工评估并衡量其准确性 GPT- 驱动的文档工具。
开发人员可以使用 Evals 创建和运行评估:
- 使用数据集生成提示,
- 衡量由供应商提供的完工质量 OpenAI 模型及
- 比较不同数据集和模型的性能。
使用开源代码,开发人员还可以编写和添加 自定义评估 以及 几个模板 可以适应不同的基准。 该公司包含了内部最有用的模板,其中包括“模型分级评估”模板,该模板 GPT-4 可以用来检查自己的工作。 作为一个例子,该公司创建了一个逻辑谜题评估,其中包含十个提示,其中 GPT-4 将失败。
Evals 还与实施现有基准兼容,包括几个实施学术基准的笔记本和集成 CoQA 小子集的一些变体。
虽然开发人员不会因贡献评估而获得报酬, OpenAI 将授予 GPT-4 那些贡献“高质量评估”的人可以在有限的时间内访问。
Evals 的宣布是在 OpenAI 近日表示, 它将停止使用客户通过其 API 提交的数据来训练或改进其模型,除非客户决定选择加入。该公司与 Meta 一起参与众包基准测试,因为后者的任务是人类“寻找愚弄当前状态的对抗性例子” -艺术模型”为其 动态台 平台。
了解更多:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
辛迪是一名记者 Metaverse Post,涵盖相关主题 web3, NFT、元宇宙和人工智能,重点是采访 Web3 行业参与者。她曾与 30 多位 C 级高管进行过交谈,并将他们的宝贵见解带给读者。辛迪来自新加坡,现居住在格鲁吉亚第比利斯。她拥有南澳大利亚大学传播与媒体研究学士学位,并拥有十年的新闻和写作经验。通过以下方式与她联系 [电子邮件保护] 有新闻发布会、公告和采访机会。
更多文章辛迪是一名记者 Metaverse Post,涵盖相关主题 web3, NFT、元宇宙和人工智能,重点是采访 Web3 行业参与者。她曾与 30 多位 C 级高管进行过交谈,并将他们的宝贵见解带给读者。辛迪来自新加坡,现居住在格鲁吉亚第比利斯。她拥有南澳大利亚大学传播与媒体研究学士学位,并拥有十年的新闻和写作经验。通过以下方式与她联系 [电子邮件保护] 有新闻发布会、公告和采访机会。