在人工智能领域,Anthropic 公司于 2025 年 5 月 22 日隆重推出了其新一代 Claude 模型,包括 Claude Opus 4 和 Claude Sonnet 4。这两款模型在编码、高级推理和人工智能代理方面均树立了新的行业标准。本文将深入探讨这两款模型的卓越性能、全新功能以及对开发人员的潜在影响。
Claude Opus 4:编码领域的巅峰之作
Claude Opus 4 被誉为目前全球最佳的编码模型,它在复杂、长期运行的任务和代理工作流程中表现出卓越的性能。这款模型能够持续数小时不间断地工作,这极大地扩展了人工智能代理的应用范围。Cursor 评价其为编码领域的最新技术,并在复杂代码库理解方面实现了飞跃。Replit 则指出,Opus 4 在复杂变更方面的精确度得到了显著提升,尤其是在跨多个文件进行更改时。Block 认为,Opus 4 是首个能够在编辑和调试过程中提高代码质量的模型,同时保持了其代理(代号为 goose)的完整性能和可靠性。Rakuten 通过一项高要求的开源重构验证了 Opus 4 的能力,该重构独立运行了 7 个小时,并保持了稳定的性能。Cognition 则强调,Opus 4 擅长解决其他模型无法处理的复杂挑战,成功地完成了先前模型遗漏的关键操作。
Claude Sonnet 4:性能与效率的完美结合
Claude Sonnet 4 是对其前代产品 Claude Sonnet 3.7 的重大升级,在编码方面表现出色,在 SWE-bench 上取得了 72.7% 的优异成绩。该模型在性能和效率之间实现了平衡,适用于内部和外部用例,并具有增强的可操纵性,从而可以更好地控制实施过程。尽管在大多数领域中,Sonnet 4 无法与 Opus 4 相提并论,但它在功能和实用性之间提供了理想的组合。
GitHub 透露,Claude Sonnet 4 在代理场景中表现出色,并将作为 GitHub Copilot 中新编码代理的模型。Manus 强调了 Sonnet 4 在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 擅长自主多功能应用程序开发,并能显著提高问题解决和代码库导航能力,从而将导航错误从 20% 降低到接近于零。Sourcegraph 表示,该模型在软件开发方面展现出了巨大的潜力,能够更长时间地保持在正轨上,更深入地理解问题,并提供更优雅的代码质量。Augment Code 则报告称,Sonnet 4 具有更高的成功率、更精确的代码编辑能力以及更谨慎地处理复杂任务的能力,使其成为其主要模型的首选。
这些模型的进步推动了 Anthropic 客户在人工智能战略方面的全面发展:Opus 4 在编码、研究、写作和科学发现领域不断突破界限,而 Sonnet 4 则将前沿性能带到了日常用例中,是对 Sonnet 3.7 的即时升级。
模型改进:超越性能的提升
除了扩展的工具使用思维、并行工具执行和内存改进之外,Anthropic 还显著减少了模型使用快捷方式或漏洞来完成任务的行为。与 Sonnet 3.7 相比,这两种模型在此类行为上的可能性降低了 65%。
Claude Opus 4 在内存功能方面也大大优于所有先前的模型。当开发人员构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 能够熟练地创建和维护“内存文件”来存储关键信息。这可以提高长期任务意识、连贯性和代理任务的性能,例如 Opus 4 在玩 Pokémon 时创建“导航指南”。
此外,Anthropic 还为 Claude 4 模型引入了思维摘要,该摘要使用较小的模型来压缩冗长的思维过程。这种摘要仅在大约 5% 的时间内需要,因为大多数思维过程都足够短,可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门,以获取对新开发者模式的完全访问权限。
Claude Code:赋能开发人员的强大工具
Claude Code 现已全面上市,它将 Claude 的强大功能带到了更多的开发工作流程中,包括终端、开发人员喜爱的 IDE 以及在后台使用 Claude Code SDK 运行。适用于 VS Code 和 JetBrains 的新 beta 扩展将 Claude Code 直接集成到 IDE 中。Claude 提出的编辑建议会以内联方式显示在文件中,从而简化了在熟悉的编辑器界面中的查看和跟踪。只需在 IDE 终端中运行 Claude Code 即可安装。
除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此开发人员可以使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的功能示例:GitHub 上的 Claude Code(现已推出 beta 版)。在 PR 上标记 Claude Code,以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。
总结与展望
Claude Opus 4 和 Sonnet 4 的发布标志着人工智能技术又向前迈进了一大步。这些模型不仅在编码、推理和代理任务方面表现出色,而且还具有诸如扩展的工具使用思维、并行工具执行和内存改进等创新功能。通过 Claude Code 的全面上市,Anthropic 正在赋能开发人员构建更强大的 AI 代理和应用程序。随着人工智能技术的不断发展,我们可以期待看到 Claude 模型在各行各业中发挥越来越重要的作用。
Anthropic 始终致力于通过广泛的测试和评估来最大限度地降低风险并提高安全性,包括实施针对更高 AI 安全级别(如 ASL-3)的措施。Anthropic 鼓励用户通过 [反馈](mailto: feedback@anthropic.com) 来帮助其改进。
附录:性能基准数据来源
- Open AI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
- Gemini: Gemini 2.5 Pro Preview model card
- Claude: Claude 3.7 Sonnet launch post
性能基准报告
Claude Opus 4 和 Sonnet 4 是混合推理模型。此博客文章中报告的基准显示了使用或不使用扩展思维所获得的最高分数。我们在下面注明了每个结果是否使用了扩展思维:
- 没有扩展思维:SWE-bench Verified, Terminal-bench
- 扩展思维(最多 64K 个 tokens):
- TAU-bench(没有报告没有扩展思维的结果)
- GPQA Diamond(没有扩展思维:Opus 4 得分为 74.9%,Sonnet 4 为 70.0%)
- MMMLU(没有扩展思维:Opus 4 得分为 87.4%,Sonnet 4 为 85.4%)
- MMMU(没有扩展思维:Opus 4 得分为 73.7%,Sonnet 4 为 72.6%)
- AIME(没有扩展思维:Opus 4 得分为 33.9%,Sonnet 4 为 33.1%)
TAU-bench 方法论
通过提示附录获得了分数,该附录添加到航空公司和零售代理政策中,指示 Claude 在使用扩展思维和工具使用时更好地利用其推理能力。鼓励该模型在解决问题时写下自己的想法,这与我们通常的思维模式不同,在多轮轨迹中最好地利用其推理能力。为了适应 Claude 因利用更多思维而产生的额外步骤,最大步骤数(按模型完成次数计算)从 30 增加到 100(大多数轨迹在 30 个步骤内完成,只有一条轨迹达到 50 个步骤以上)。
SWE-bench 方法论
对于 Claude 4 系列模型,我们继续使用相同的简单支架,该支架仅为模型配备了我们在先前版本中描述的两种工具 此处——一个 bash 工具和一个通过字符串替换进行操作的文件编辑工具。我们不再包括 Claude 3.7 Sonnet 使用的 第三个“规划工具”。在所有 Claude 4 模型上,我们报告了完整 500 个问题的分数。OpenAI 模型的报告分数来自 477 个问题子集。
对于我们的“高计算”数字,我们采用额外的复杂性和并行测试时间计算,如下所示:
- 我们采样多个并行尝试。
- 我们丢弃破坏存储库中可见回归测试的补丁,类似于 Agentless (Xia et al. 2024) 采用的拒绝抽样方法;请注意,未使用任何隐藏的测试信息。
- 然后,我们使用内部评分模型从剩余的尝试中选择最佳候选者。
这导致 Opus 4 和 Sonnet 4 的分数分别为 79.4% 和 80.2%。