在人工智能领域,日新月异的技术革新不断涌现,而Anthropic公司于2025年5月22日发布的Claude 4模型,无疑为这一领域注入了新的活力。本次发布不仅带来了Claude Opus 4和Claude Sonnet 4两款性能卓越的模型,更在工具使用、模型能力、API功能以及开发者工具等方面进行了全面升级,为用户带来了前所未有的AI体验。
Claude Opus 4:性能之巅,代码王者
Claude Opus 4被誉为“世界上最好的编码模型”,其在复杂、长期运行的任务和智能代理工作流程中表现出持续稳定的卓越性能。这款模型在SWE-bench和Terminal-bench等基准测试中均名列前茅,充分证明了其在代码生成、理解和调试方面的强大实力。Cursor、Replit、Block、Rakuten和Cognition等知名企业纷纷对其赞誉有加,认为Opus 4在代码理解、精度和质量方面实现了质的飞跃。
相较于其他模型,Claude Opus 4的最大优势在于其处理复杂问题的能力。它能够胜任需要长时间集中精力、数千个步骤才能完成的任务,持续工作数小时,远超其他Sonnet模型。这一特性使得Opus 4在驱动前沿代理产品方面拥有巨大的潜力,能够解决其他模型无法处理的复杂挑战,完成关键操作。
Claude Sonnet 4:均衡之选,全面提升
Claude Sonnet 4作为Claude Sonnet 3.7的升级版,在编码和推理能力上均有显著提升,同时能够更精确地响应用户指令。尽管在性能上略逊于Opus 4,但Sonnet 4在SWE-bench上的表现依然出色,达到了72.7%,展现了其在编码方面的强大实力。此外,Sonnet 4在性能和效率之间实现了最佳平衡,适用于各种内部和外部用例,并具有更强的可控性,能够更好地满足用户的个性化需求。
GitHub、Manus、iGent、Sourcegraph和Augment Code等公司对Claude Sonnet 4的评价同样很高,认为其在遵循复杂指令、清晰推理和美学输出方面均有显著提升。Sonnet 4在自主多功能应用程序开发、问题解决和代码库导航方面表现出色,能够有效减少导航错误,提高代码质量。
总而言之,Claude Opus 4和Sonnet 4的推出,将极大地推动客户AI战略的发展。Opus 4在编码、研究、写作和科学发现等领域不断突破界限,而Sonnet 4则将前沿性能带入日常用例,成为Sonnet 3.7的理想升级选择。
模型能力提升:工具使用、并行执行与记忆增强
除了卓越的性能,Claude 4还在模型能力方面进行了多项重大升级:
- 扩展的工具使用:Claude 4模型支持在扩展思维过程中使用工具,例如Web搜索,从而在推理和工具使用之间灵活切换,提高响应质量。这种能力使得Claude 4能够更好地理解和解决复杂问题,为用户提供更全面的信息和更准确的答案。
- 并行工具执行:Claude 4模型能够并行使用多个工具,进一步提高了工作效率。这意味着Claude 4可以同时执行多个任务,例如同时进行Web搜索、代码生成和数据分析,从而更快地完成复杂的工作流程。
- 记忆能力增强:当开发者允许Claude 4访问本地文件时,模型能够显著提升记忆能力,提取并保存关键信息,从而保持任务的连续性,并随着时间的推移构建隐性知识。这一特性使得Claude 4能够更好地理解用户的意图,并根据用户的历史行为进行个性化推荐。
此外,Claude 4还显著减少了模型利用捷径或漏洞完成任务的行为。在容易出现此类行为的代理任务中,Claude 4的此类行为比Sonnet 3.7减少了65%。这意味着Claude 4能够更加可靠地完成任务,避免出现不必要的错误。
Claude Opus 4在记忆能力方面也表现出色。当开发者构建允许Claude访问本地文件的应用程序时,Opus 4能够创建和维护“记忆文件”来存储关键信息。这使得Opus 4能够更好地感知长期任务,提高连贯性,并在代理任务中表现出色。例如,Opus 4在玩Pokémon游戏时可以创建一个“导航指南”。
Claude Code:开发者福音,效率神器
Claude Code作为一款开发者工具,现已全面上市,旨在将Claude的强大功能带到更多的开发工作流程中,包括终端、IDE以及后台运行的Claude Code SDK。
通过新的VS Code和JetBrains beta扩展,Claude Code可以直接集成到IDE中。Claude提出的编辑建议会直接显示在文件中,从而简化了在熟悉编辑器界面中的审查和跟踪流程。只需在IDE终端中运行Claude Code即可安装。
除了IDE,Anthropic还发布了一个可扩展的Claude Code SDK,允许开发者使用与Claude Code相同的核心代理构建自己的代理和应用程序。同时,Anthropic还发布了一个使用SDK的示例:GitHub上的Claude Code(目前为beta版)。在PR上标记Claude Code,即可响应审阅者的反馈、修复CI错误或修改代码。要安装,请从Claude Code中运行/install-github-app。
总结与展望
Claude 4的发布,标志着人工智能技术在代码生成、问题解决和智能代理等领域取得了重大突破。其卓越的性能、强大的功能和便捷的工具,将极大地提升开发者的工作效率,推动人工智能应用的普及和发展。随着人工智能技术的不断进步,我们有理由相信,未来的AI将更加智能、高效和可靠,为人类社会带来更多的福祉。
性能基准数据来源
- Open AI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
- Gemini: Gemini 2.5 Pro Preview model card
- Claude: Claude 3.7 Sonnet launch post
性能基准报告
Claude Opus 4和Sonnet 4是混合推理模型。本博客文章中报告的基准测试显示了通过扩展思维或不通过扩展思维所获得的最高分数。我们在下面注明了每个结果是否使用了扩展思维:
- 无扩展思维:SWE-bench Verified、Terminal-bench
- 扩展思维(最多64K tokens):
- TAU-bench(未报告无扩展思维的结果)
- GPQA Diamond(无扩展思维:Opus 4得分74.9%,Sonnet 4得分70.0%)
- MMMLU(无扩展思维:Opus 4得分87.4%,Sonnet 4得分85.4%)
- MMMU(无扩展思维:Opus 4得分73.7%,Sonnet 4得分72.6%)
- AIME(无扩展思维:Opus 4得分33.9%,Sonnet 4得分33.1%)
TAU-bench方法
在Airline和Retail Agent Policy中,通过提示Claude更好地利用其推理能力,同时使用扩展思维和工具使用来获得分数。鼓励该模型在解决问题的过程中写下其想法,这不同于我们通常的思维模式,在多轮轨迹中最好地利用其推理能力。为了适应Claude因利用更多思维而产生的额外步骤,最大步骤数(由模型完成数计算)从30增加到100(大多数轨迹在30步以下完成,只有一个轨迹达到50步以上)。
SWE-bench方法
对于Claude 4系列模型,我们继续使用相同的简单支架,该支架仅为模型配备了我们之前版本中描述的两种工具here—一个bash工具和一个通过字符串替换操作的文件编辑工具。我们不再包括Claude 3.7 Sonnet使用的第三个“规划工具”。在所有Claude 4模型上,我们报告了完整500个问题的分数。OpenAI模型的得分报告为477个问题子集。
对于我们的“高计算”数字,我们采用额外的复杂性和并行测试时计算,如下所示:
- 我们对多个并行尝试进行采样。
- 我们丢弃破坏存储库中可见回归测试的补丁,类似于Agentless(Xia et al. 2024)采用的拒绝抽样方法;请注意,未使用任何隐藏的测试信息。
- 然后,我们使用内部评分模型从剩余的尝试中选择最佳候选者。
这导致Opus 4和Sonnet 4的得分分别为79.4%和80.2%。