在快速发展的人工智能(AI)领域,Anthropic公司于2025年5月22日宣布推出其最新一代的Claude模型:Claude Opus 4和Claude Sonnet 4。这两款模型在编码、高级推理和AI代理方面设立了新的行业标准,标志着AI技术发展的重要里程碑。
Claude Opus 4被誉为全球最佳的编码模型,它在复杂、长时间运行的任务和代理工作流程中表现出卓越的性能。与之前的版本相比,Claude Sonnet 4实现了显著的升级,在编码和推理能力上都有了质的飞跃,同时对指令的响应也更加精准。
扩展思维与工具应用
Anthropic还宣布,Claude Opus 4和Sonnet 4都支持“扩展思维与工具应用”(目前为beta版)。这意味着这些模型可以在扩展的思考过程中使用工具,例如网页搜索,从而在推理和工具使用之间灵活切换,显著提升响应质量。
模型新功能
除了扩展思维,这两款模型还具备并行使用工具的能力,能够更精确地遵循指令。当开发者授权访问本地文件时,它们还能展现出显著的记忆能力,提取并保存关键信息,以保持任务的连续性,并随着时间的推移构建隐性知识。
Claude Code正式发布
在经过广泛的积极反馈后,Claude Code现在正式向开发者开放。它支持通过GitHub Actions执行后台任务,并与VS Code和JetBrains实现原生集成,可以直接在文件中显示编辑内容,实现无缝的协作编程体验。
API新功能
Anthropic API还新增了四项功能,旨在帮助开发者构建更强大的AI代理:代码执行工具、MCP连接器、Files API,以及缓存长达一小时的提示词功能。
Claude Opus 4和Sonnet 4是混合模型,提供两种模式:即时响应和用于更深入推理的扩展思考。Pro、Max、Team和Enterprise Claude计划均包含这两种模型和扩展思考功能,Sonnet 4也向免费用户开放。这两款模型均可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用。定价与之前的Opus和Sonnet模型保持一致:Opus 4为每百万tokens 15美元/75美元(输入/输出),Sonnet 4为3美元/15美元。
Claude 4:性能与应用
Claude Opus 4是Anthropic迄今为止最强大的模型,也是全球领先的编码模型,在SWE-bench(72.5%)和Terminal-bench(43.2%)上均表现出色。它在需要持续努力和数千个步骤的长时任务中表现出卓越的性能,可以连续工作数小时,这大大超过了所有Sonnet模型,并显著扩展了AI代理可以完成的任务范围。
Claude Opus 4擅长编码和复杂的解决问题,为前沿的代理产品提供支持。Cursor称其为编码领域的最新技术,是复杂代码库理解方面的一次飞跃。Replit报告称,它提高了精度,并在跨多个文件的复杂更改方面取得了显著进展。Block称其为第一个在其代理_codename goose_中提高编辑和调试期间代码质量的模型,同时保持了完整的性能和可靠性。Rakuten通过一项需要独立运行7小时并保持持续性能的苛刻的开源重构验证了其功能。Cognition指出,Opus 4擅长解决其他模型无法解决的复杂挑战,成功处理了以前模型遗漏的关键操作。
Claude Sonnet 4在Sonnet 3.7的行业领先功能的基础上进行了显著改进,在编码方面表现出色,在SWE-bench上的最新技术为72.7%。该模型平衡了内部和外部用例的性能和效率,并通过增强的可操纵性来更好地控制实施。虽然在大多数领域中无法与Opus 4匹敌,但它提供了功能和实用性的最佳组合。
GitHub表示,Claude Sonnet 4在代理场景中表现出色,并将作为为GitHub Copilot中的新编码代理提供支持的模型推出。Manus强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent报告称,Sonnet 4擅长自主多功能应用程序开发,并大大提高了问题解决和代码库导航能力,从而将导航错误从20%减少到接近零。Sourcegraph表示,该模型显示出有望成为软件开发的巨大飞跃的潜力-可以更长地保持在轨道上,更深入地理解问题,并提供更优雅的代码质量。Augment Code报告说,更高的成功率,更精细的代码编辑以及通过复杂任务进行的更仔细的工作使其成为其主要模型的首选。
这些模型全面提升了客户的AI战略:Opus 4推动了编码、研究、写作和科学发现的边界,而Sonnet 4则将前沿性能带入了日常用例,是对Sonnet 3.7的即时升级。
Claude 4模型在SWE-bench Verified(一个用于衡量实际软件工程任务性能的基准)上处于领先地位。有关方法的更多信息,请参见附录。
模型改进
除了使用工具进行扩展思维、并行工具执行和内存改进之外,Anthropic还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易出现捷径和漏洞的代理任务中,这两个模型参与这种行为的可能性比Sonnet 3.7低65%。
Claude Opus 4在内存功能方面也大大优于所有先前的模型。当开发人员构建提供Claude本地文件访问权限的应用程序时,Opus 4会熟练地创建和维护“内存文件”以存储关键信息。这可以更好地实现长期任务感知、连贯性和代理任务的性能,例如Opus 4在玩Pokémon时创建“导航指南”。
记忆:当被授予访问本地文件的权限时,Claude Opus 4会记录关键信息以帮助改善其游戏玩法。上面描绘的笔记是Opus 4在玩Pokémon时所做的真实笔记。
最后,Anthropic为Claude 4模型引入了思维摘要,该模型使用较小的模型来压缩冗长的思维过程。此摘要仅在大约5%的时间内需要-大多数思维过程都足够短,可以完整显示。需要用于高级提示工程的原始思维链的用户可以联系销售以获取有关我们新的开发人员模式的完全访问权限。
Claude Code
Claude Code现已全面上市,它将Claude的功能带到您的更多开发工作流程中-在终端、您喜欢的IDE中以及使用Claude Code SDK在后台运行。
用于VS Code和JetBrains的新beta扩展将Claude Code直接集成到您的IDE中。Claude建议的编辑会以内联方式显示在您的文件中,从而简化了熟悉的编辑器界面中的审查和跟踪。只需在IDE终端中运行Claude Code即可安装。
除了IDE,我们还将发布一个可扩展的Claude Code SDK,因此您可以使用与Claude Code相同的核心代理来构建自己的代理和应用程序。我们还将发布一个使用SDK可以实现的功能的示例:GitHub上的Claude Code(目前为beta版)。在PR上标记Claude Code以响应审阅者的反馈,修复CI错误或修改代码。要安装,请从Claude Code中运行/ install-github-app。
入门
这些模型是朝着虚拟协作者迈出的一大步-保持完整的上下文,专注于更长的项目并推动变革性的影响。它们经过了广泛的测试和评估,以最大程度地降低风险并最大程度地提高安全性,包括实施措施以实现更高的AI安全级别,例如ASL-3。
Anthropic很高兴看到您将创造什么。立即开始在Claude,Claude Code或您选择的平台上开始。
与往常一样,您的[反馈](mailto: feedback@anthropic.com)可以帮助我们改进。
附录
性能基准数据来源
- Open AI:o3启动帖子,o3系统卡,GPT-4.1启动帖子,GPT-4.1托管评估
- Gemini:Gemini 2.5 Pro预览模型卡
- Claude:Claude 3.7 Sonnet启动帖子
性能基准报告
Claude Opus 4和Sonnet 4是混合推理模型。此博客文章中报告的基准测试显示了在有或没有扩展思维的情况下获得的最高分数。我们在下面注明了每个结果是否使用了扩展思维:
- 没有扩展思维:SWE-bench Verified,Terminal-bench
- 扩展思维(最多64K个tokens):
- TAU-bench(没有报告没有扩展思维的结果)
- GPQA Diamond(没有扩展思维:Opus 4得分74.9%,Sonnet 4得分为70.0%)
- MMMLU(没有扩展思维:Opus 4得分87.4%,Sonnet 4得分为85.4%)
- MMMU(没有扩展思维:Opus 4得分73.7%,Sonnet 4得分为72.6%)
- AIME(没有扩展思维:Opus 4得分33.9%,Sonnet 4得分为33.1%)
TAU-bench方法
在使用工具进行扩展思维的同时,通过提示附录,指示Claude更好地利用其推理能力来获得分数,从而获得Airline和Retail Agent Policy。鼓励该模型写下其在解决问题时的想法,这与我们通常的思维模式不同,在多回合轨迹中可以最好地利用其推理能力。为了适应Claude通过利用更多思维而产生的额外步骤,最大步数(通过模型完成计数)从30增加到100(大多数轨迹在30步内完成,只有一个轨迹达到50步以上)。
SWE-bench方法
对于Claude 4系列模型,我们继续使用相同的简单支架,该支架仅为模型配备了我们先前版本中描述的两种工具此处-bash工具,以及通过字符串替换进行操作的文件编辑工具。我们不再包括Claude 3.7 Sonnet使用的第三个“计划工具”。在所有Claude 4模型上,我们报告了全部500个问题的得分。OpenAI模型的得分是477个问题子集。
对于我们的“高计算”数字,我们采用以下附加的复杂性和并行测试时间计算:
- 我们采样多个并行尝试。
- 我们丢弃会破坏存储库中可见回归测试的补丁,类似于Agentless(Xia等人,2024)采用的拒绝采样方法;请注意,未使用任何隐藏的测试信息。
- 然后,我们使用内部评分模型从其余尝试中选择最佳候选者。
对于Opus 4和Sonnet 4,这分别导致79.4%和80.2%的得分。