在人工智能领域,日新月异的技术革新不断涌现,其中,Anthropic公司于2025年5月22日发布的Claude 4模型无疑是引人瞩目的焦点。这次发布的不仅是新一代的Claude模型,更是在编码、高级推理和AI代理方面树立了新的行业标杆。Claude Opus 4和Claude Sonnet 4作为本次发布的核心,各自具备卓越的性能和特点,旨在满足不同场景下的用户需求。
Claude Opus 4:代码能力的新巅峰
Claude Opus 4被誉为目前全球最佳的编码模型。它在处理复杂、长期运行的任务和代理工作流程方面表现出卓越的稳定性和效率。这款模型的强大之处在于其能够持续地执行需要集中精力并涉及数千个步骤的任务,并且可以连续工作数小时,这使得它在AI代理领域具有显著的优势。
各行各业的专家对Claude Opus 4的代码能力赞不绝口。
- Cursor认为,Claude Opus 4在代码理解方面实现了巨大的飞跃,堪称行业内的最先进水平。
- Replit强调了其在复杂变更方面的精度提升,特别是在跨多个文件的操作中表现出色。
- Block表示,Claude Opus 4是首个能够在代码编辑和调试过程中显著提高代码质量的模型,同时保持了其代理_codename goose_的完整性能和可靠性。
- Rakuten通过一项高要求的开源重构验证了Claude Opus 4的强大功能,该重构独立运行了7个小时,并保持了稳定的性能。
- Cognition指出,Opus 4擅长解决其他模型无法处理的复杂挑战,成功处理了先前模型遗漏的关键操作。
Claude Sonnet 4:性能与效率的完美结合
Claude Sonnet 4是Claude Sonnet 3.7的重大升级版,它在编码和推理方面都有着卓越的表现,同时能够更精准地响应用户的指令。尽管在大多数领域,Sonnet 4可能无法与Opus 4相提并论,但它在性能和实用性之间实现了最佳的平衡。
行业内的众多公司也纷纷表达了对Claude Sonnet 4的认可:
- GitHub表示,Claude Sonnet 4在代理场景中表现出色,并将作为GitHub Copilot中新型编码代理的驱动模型。
- Manus强调了其在遵循复杂指令、清晰推理和美学输出方面的改进。
- iGent报告称,Sonnet 4擅长自主多功能应用开发,并显著提高了问题解决和代码库导航能力——将导航错误从20%降低到接近于零。
- Sourcegraph认为,该模型在软件开发方面展现出了巨大的潜力——能够更长时间地保持专注,更深入地理解问题,并提供更优雅的代码质量。
- Augment Code报告说,Sonnet 4具有更高的成功率、更精确的代码编辑能力以及更认真地完成复杂任务的能力,使其成为其主要模型的首选。
总的来说,Claude Opus 4在编码、研究、写作和科学发现等领域具有突破性的潜力,而Sonnet 4则为日常使用场景带来了前沿的性能,是Sonnet 3.7的即时升级版。
值得一提的是,Claude 4模型在SWE-bench Verified(一个用于评估模型在实际软件工程任务中性能的基准)上处于领先地位。这一成就进一步证明了Claude 4模型在软件开发领域的卓越能力。
模型功能的增强
除了增强的工具使用、并行工具执行和记忆力改进外,Anthropic还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易出现捷径和漏洞的代理任务中,这两个模型发生这种行为的可能性比Sonnet 3.7低65%。
Claude Opus 4还在记忆能力方面大大优于所有以前的模型。当开发人员构建提供Claude本地文件访问权限的应用程序时,Opus 4可以熟练地创建和维护“记忆文件”以存储关键信息。这可以提高长期任务意识、连贯性和代理任务的性能,例如Opus 4在玩Pokémon时创建“导航指南”。
此外,Anthropic还为Claude 4模型引入了思维总结功能,该功能使用较小的模型来凝练冗长的思维过程。这种总结只需要大约5%的时间——大多数思维过程都足够短,可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门以获取对我们的新开发者模式的完全访问权限。
Claude Code:赋能开发者的新工具
Claude Code现已全面上市,它将Claude的强大功能引入到更多的开发工作流程中——在终端、你最喜欢的IDE中,并在后台使用Claude Code SDK运行。
用于VS Code和JetBrains的新的beta扩展将Claude Code直接集成到IDE中。Claude建议的编辑会以内联方式显示在文件中,从而简化了在熟悉的编辑器界面中的审查和跟踪。只需在IDE终端中运行Claude Code即可安装。
除了IDE之外,Anthropic还发布了一个可扩展的Claude Code SDK,因此你可以使用与Claude Code相同的核心代理来构建你自己的代理和应用程序。Anthropic还发布了一个使用SDK可以实现的示例:GitHub上的Claude Code,目前是beta版。在PR上标记Claude Code以响应审阅者的反馈、修复CI错误或修改代码。要安装,请从Claude Code中运行/install-github-app。
如何开始使用
这些模型是朝着虚拟协作者迈出的一大步——保持完整的上下文,持续关注更长的项目,并推动变革性的影响。它们经过了广泛的测试和评估,以最大限度地降低风险和提高安全性,包括实施针对更高AI安全级别(如ASL-3)的措施。
Anthropic对用户能够创造出什么感到兴奋。今天就开始在Claude、Claude Code或你选择的平台上开始使用吧!
性能基准数据来源
- Open AI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
- Gemini: Gemini 2.5 Pro Preview model card
- Claude: Claude 3.7 Sonnet launch post
性能基准报告
Claude Opus 4和Sonnet 4是混合推理模型。此博客文章中报告的基准显示了使用或不使用扩展思维所获得的最高分数。我们在下面注明了每个结果是否使用了扩展思维:
- 没有扩展思维:SWE-bench Verified, Terminal-bench
- 扩展思维(最多64K个tokens):
- TAU-bench (没有报告没有扩展思维的结果)
- GPQA Diamond (没有扩展思维:Opus 4得分74.9%,Sonnet 4得分70.0%)
- MMMLU (没有扩展思维:Opus 4得分87.4%,Sonnet 4得分85.4%)
- MMMU (没有扩展思维:Opus 4得分73.7%,Sonnet 4得分72.6%)
- AIME (没有扩展思维:Opus 4得分33.9%,Sonnet 4得分33.1%)
TAU-bench方法
通过提示附加到Airline和Retail Agent Policy实现了分数,指示Claude在利用工具使用扩展思维的同时更好地利用其推理能力。鼓励该模型在解决问题的过程中写下其想法,这与我们通常的思维模式不同,在多轮轨迹中最好地利用其推理能力。为了适应Claude通过利用更多思维而产生的额外步骤,最大步骤数(通过模型完成计数)从30增加到100(大多数轨迹在30步以下完成,只有一条轨迹达到50步以上)。
SWE-bench方法
对于Claude 4系列模型,我们继续使用相同的简单支架,该支架仅为模型配备了我们在先前版本中描述的两种工具此处——一个bash工具和一个通过字符串替换操作的文件编辑工具。我们不再包括Claude 3.7 Sonnet使用的第三个“计划工具”。在所有Claude 4模型上,我们报告了完整500个问题的分数。OpenAI模型的分数报告了477个问题子集。
对于我们的“高计算”数字,我们采用额外的复杂性和并行测试时间计算,如下所示:
- 我们采样多个并行尝试。
- 我们丢弃破坏存储库中可见回归测试的补丁,类似于Agentless (Xia et al. 2024)采用的拒绝采样方法;请注意,不使用隐藏的测试信息。
- 然后,我们使用内部评分模型从剩余的尝试中选择最佳候选者。
这导致Opus 4和Sonnet 4的分数分别为79.4%和80.2%。