Claude 4发布:AI编码与推理能力迎来重大突破,开启AI Agent新纪元

1

2025 年 5 月 22 日,Anthropic 发布了新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4。这些模型在编码、高级推理和 AI Agent 方面设立了新的行业标准。Claude Opus 4 被誉为全球最佳的编码模型,能够胜任复杂的、长期运行的任务和 Agent 工作流程。而 Claude Sonnet 4 则是 Claude Sonnet 3.7 的重大升级,不仅在编码和推理方面表现出色,还能更精准地响应指令。

Illustration of Claude juggling several tasks in parallel

此次发布不仅包括新的模型,还包括以下几项重要更新:

  • 扩展思维与工具使用(Beta):新模型可以在扩展思维过程中使用工具,例如 Web Search,从而在推理和工具使用之间灵活切换,提高响应质量。
  • 全新模型能力:新模型支持并行工具使用,能够更精准地遵循指令。同时,在开发者提供本地文件访问权限后,模型能够显著提升记忆能力,提取并保存关键信息,以保持连续性并构建隐性知识。
  • Claude Code 正式发布:在经过广泛的积极反馈后,Anthropic 正在扩大开发者与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 实现原生集成,从而直接在文件中显示编辑内容,实现无缝的结对编程。
  • 全新 API 能力:Anthropic API 发布了四项新功能,使开发者能够构建更强大的 AI Agent:代码执行工具、MCP 连接器、Files API 以及缓存提示的能力(最长可达 1 小时)。

Claude Opus 4 和 Sonnet 4 均为混合模型,提供两种模式:近乎即时的响应和用于更深层次推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 计划均包含这两种模型和扩展思维,Sonnet 4 也可供免费用户使用。这两种模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 tokens 15 美元/75 美元(输入/输出),Sonnet 4 为 3 美元/15 美元。

Claude 4 的卓越性能

Claude Opus 4 是 Anthropic 迄今为止最强大的模型,也是全球最佳的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均处于领先地位。它能够在需要集中精力并执行数千个步骤的长期运行任务中保持卓越性能,并能够持续工作数小时,这大大优于所有 Sonnet 模型,并显著扩展了 AI Agent 的能力。

Claude Opus 4 擅长编码和解决复杂问题,为前沿的 Agent 产品提供强大支持。Cursor 认为它是最先进的编码模型,是复杂代码库理解方面的一次飞跃。Replit 报告称,该模型提高了精度,并在跨多个文件的复杂更改方面取得了显著进展。Block 认为它是第一个在其 Agent codename goose 中提高编辑和调试期间代码质量的模型,同时保持了完整的性能和可靠性。Rakuten 通过一项要求苛刻的开源重构验证了其能力,该重构独立运行了 7 个小时,并保持了持续的性能。Cognition 指出,Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了以前模型遗漏的关键操作。

Claude Sonnet 4 在 Sonnet 3.7 领先的行业能力基础上进行了显著改进,在编码方面表现出色,在 SWE-bench 上达到了 72.7% 的最先进水平。该模型在性能和效率之间取得了平衡,适用于内部和外部用例,并具有增强的可操纵性,从而可以更好地控制实施。虽然在大多数领域无法与 Opus 4 相提并论,但它提供了能力和实用性的最佳组合。

GitHub 表示,Claude Sonnet 4 在 Agent 场景中表现出色,并将推出它作为 GitHub Copilot 中新的编码 Agent 的模型。Manus 强调了它在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 擅长自主多功能应用程序开发,并大大提高了问题解决和代码库导航能力,从而将导航错误从 20% 降低到接近于零。Sourcegraph 表示,该模型显示出作为软件开发领域的一次重大飞跃的潜力——能够更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称,该模型具有更高的成功率、更精准的代码编辑以及更认真地完成复杂任务的能力,使其成为其主要模型的首选。

这些模型全面提升了客户的 AI 战略:Opus 4 突破了编码、研究、写作和科学发现的界限,而 Sonnet 4 则将前沿性能带到了日常用例中,是从 Sonnet 3.7 的即时升级。

Bar chart comparison between Claude and other LLMs on software engineering tasks

Claude 4 模型在 SWE-bench Verified 上处于领先地位,这是一个衡量实际软件工程任务性能的基准。有关方法论的更多信息,请参见附录。

模型改进

除了扩展思维与工具使用、并行工具执行和记忆改进之外,Anthropic 还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易出现捷径和漏洞的 Agent 任务中,这两种模型发生此行为的可能性比 Sonnet 3.7 低 65%。

Claude Opus 4 在记忆能力方面也大大优于所有以前的模型。当开发者构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 能够熟练地创建和维护“记忆文件”来存储关键信息。这可以更好地实现长期任务感知、连贯性和 Agent 任务的性能——例如 Opus 4 在玩 Pokémon 时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

记忆:当被授予访问本地文件的权限时,Claude Opus 4 会记录关键信息,以帮助提高其游戏水平。上面描述的笔记是 Opus 4 在玩 Pokémon 时记下的真实笔记。

最后,Anthropic 为 Claude 4 模型引入了思维总结,该模型使用较小的模型来压缩冗长的思维过程。只有大约 5% 的时间需要此总结——大多数思维过程都足够短,可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门,以获取对 Anthropic 新的开发者模式的完全访问权限。

Claude Code 的全面应用

Claude Code 现已全面上市,它将 Claude 的强大功能带到了更多的开发工作流程中——在终端、您最喜欢的 IDE 中,并在 Claude Code SDK 的后台运行。

适用于 VS Code 和 JetBrains 的新 Beta 扩展将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑会以内联方式显示在您的文件中,从而简化了在熟悉的编辑器界面中的查看和跟踪。只需在 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心 Agent 构建自己的 Agent 和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的功能的示例:GitHub 上的 Claude Code,现在处于 Beta 阶段。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。

快速上手

这些模型是迈向虚拟协作者的一大步——保持完整的上下文,持续关注更长的项目,并推动变革性影响。它们经过了广泛的测试和评估,以最大程度地降低风险并最大限度地提高安全性,包括实施针对更高级别 AI 安全级别(如 ASL-3)的措施。

Anthropic 很高兴看到您将创造什么。立即在 Claude、Claude Code 或您选择的平台上开始使用。

与往常一样,您的反馈有助于 Anthropic 改进。

附录

性能基准数据来源

性能基准报告

Claude Opus 4 和 Sonnet 4 均为混合推理模型。此博客文章中报告的基准显示了使用或不使用扩展思维所获得的最高分数。Anthropic 在下面注明了每个结果是否使用了扩展思维:

  • 未使用扩展思维:SWE-bench Verified、Terminal-bench
  • 扩展思维(最多 64K tokens):
    • TAU-bench(未报告未使用扩展思维的结果)
    • GPQA Diamond(未使用扩展思维:Opus 4 得分为 74.9%,Sonnet 4 为 70.0%)
    • MMMLU(未使用扩展思维:Opus 4 得分为 87.4%,Sonnet 4 为 85.4%)
    • MMMU(未使用扩展思维:Opus 4 得分为 73.7%,Sonnet 4 为 72.6%)
    • AIME(未使用扩展思维:Opus 4 得分为 33.9%,Sonnet 4 为 33.1%)

TAU-bench 方法论

这些分数是通过向 Airline 和 Retail Agent Policy 添加提示附录来实现的,该附录指示 Claude 在使用扩展思维与工具使用时更好地利用其推理能力。鼓励该模型在解决问题时写下其想法,这与 Anthropic 通常的思维模式不同,在多轮轨迹中最好地利用其推理能力。为了适应 Claude 因利用更多思维而产生的额外步骤,最大步骤数(按模型完成次数计算)从 30 增加到 100(大多数轨迹在 30 步内完成,只有一条轨迹达到 50 步以上)。

SWE-bench 方法论

对于 Claude 4 系列模型,Anthropic 继续使用相同的简单支架,该支架仅为模型配备了 Anthropic 先前版本中描述的两种工具——bash 工具和通过字符串替换操作的文件编辑工具。Anthropic 不再包括 Claude 3.7 Sonnet 使用的第三个“规划工具”。在所有 Claude 4 模型上,Anthropic 报告了 500 个问题的完整分数。OpenAI 模型的得分报告为 477 个问题的子集。

对于 Anthropic 的“高计算”数字,Anthropic 采用了额外的复杂性和并行测试时间计算,如下所示:

  • Anthropic 采样多个并行尝试。
  • Anthropic 丢弃破坏存储库中可见回归测试的补丁,类似于 Agentless (Xia et al. 2024) 采用的拒绝采样方法;请注意,未使用隐藏的测试信息。
  • 然后,Anthropic 使用内部评分模型从剩余的尝试中选择最佳候选者。

这导致 Opus 4 和 Sonnet 4 的得分分别为 79.4% 和 80.2%。