Anthropic 发布 Claude Sonnet 4.6,性能接近 Opus,并扩展了长上下文处理能力
简单来说
Anthropic 的 Claude Sonnet 4.6 进行了重大升级,以与先前版本相同的价格,为所有用户带来接近 Opus 级别的性能、更强大的编码和计算机使用能力以及一百万个标记的上下文窗口。
人工智能安全和研究公司 人类的 微软宣布推出 Claude Sonnet 4.6,称其为迄今为止功能最强大的 Sonnet 模型。此次版本更新涵盖编码、计算机使用、长上下文推理、智能体规划、知识工作和设计等多个方面,并在测试版中提供百万级上下文窗口。对于免费版和专业版用户,Sonnet 4.6 将成为 claude.ai 和 Claude Cowork 的默认模型,价格与 Sonnet 4.5 相同。
此次更新旨在将更高端的性能带给更广泛的用户群体。早期测试该型号的开发者报告称,其在一致性、指令执行和上下文理解方面的改进,使其不仅优于 Sonnet 4.5,而且在许多情况下甚至优于 Anthropic 公司将于 2025 年底推出的更先进的 Opus 4.5 型号。以前需要 Opus 级系统才能完成的任务——尤其是那些与实际办公工作流程相关的任务——现在使用 Sonnet 4.6 即可轻松完成。该公司还强调,计算机使用能力有了显著提升,而这正是早期 Sonnet 型号的短板所在。
Anthropic强调,该模型经过了全面的安全评估。内部研究人员表示,Sonnet 4.6展现出强大的安全性能,且未出现任何重大的高风险偏差迹象。该公司以此强化其在负责任的人工智能开发方面的整体定位。
关于计算机使用能力的讨论反映了一个更广泛的论点,即能够直接操作软件而非通过应用程序接口(API)运行的人工智能系统的价值所在。Anthropic 指出,许多组织依赖于难以自动化的传统工具,而能够像人一样与计算机交互的模型可以减少对定制集成的需求。
诸如 OSWorld 等模拟真实软件环境的基准测试显示,Sonnet 在十六个月的开发过程中稳步提升。Sonnet 4.6 的早期用户报告称,该模型现在能够处理诸如浏览复杂电子表格或填写多步骤网页表单等任务,其水平已接近人类熟练程度,尽管仍不及专家用户。与此同时,该公司也承认存在诸如提示注入攻击之类的风险,并声称与早期版本相比,其防御能力有所提高。
Sonnet 4.6 提升了代码质量、推理能力和工具使用效率
除了计算机应用之外,Anthropic 还报告称,Sonnet 4.6 在各项基准测试中均取得了显著改进。在 Claude Code 测试中,用户在大多数测试中都更倾向于使用 Sonnet 4.6 而非 Sonnet 4.5,理由是 Sonnet 4.6 的上下文读取能力更强、重复代码更少,并且多步骤执行更加可靠。许多用户也更青睐 Sonnet 4.6 而非 Opus 4.5,认为 Sonnet 4.6 更不容易出现过度设计,并且在遵循指令方面更加一致。扩展的上下文窗口使该模型能够处理整个代码库或大型研究数据集,Anthropic 还重点介绍了 Sonnet 4.6 在自动售货机竞技场模拟中的出色表现,该模型采用的长期投资策略优于竞争对手。
该公司指出,早期客户已体验到前端开发、财务分析和视觉设计质量等方面的改进。Sonnet 4.6 还对 Claude 开发者平台和 API 进行了全面更新,包括自适应和扩展思维模式、上下文压缩、改进的网络搜索处理以及扩展的工具使用功能。该模型现已适用于所有 Claude 套餐(包括免费套餐),可通过 Claude Cowork、Claude Code、API 和主流云平台访问。
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Alisa,一名热心记者 MPost专注于加密货币、人工智能、投资以及广阔的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。
更多文章
Alisa,一名热心记者 MPost专注于加密货币、人工智能、投资以及广阔的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。



