Claude 4 发布:AI 编码与推理的巅峰之作,软件开发迎来新纪元

1

2025年5月22日,Anthropic 发布了新一代 Claude 模型:Claude Opus 4Claude Sonnet 4,为编码、高级推理和 AI 代理设立了新标准。这些模型的发布标志着 AI 技术在软件开发和智能代理应用领域取得了重大进展。本文将深入探讨 Claude 4 系列模型的技术特性、性能优势及其对行业的影响。

Illustration of Claude juggling several tasks in parallel

Claude Opus 4:世界领先的编码模型

Claude Opus 4 被誉为“世界最佳编码模型”,它在复杂、长期运行的任务和代理工作流程中表现出卓越的持续性能。这意味着 Opus 4 不仅能够处理单个编码任务,还能在需要数小时甚至数天才能完成的大型项目中保持高效和准确。这种能力对于开发复杂的软件系统至关重要,因为它可以减少开发人员在调试和维护代码方面花费的时间和精力。

主要优势

  • 持续性能:Opus 4 能够在长时间运行的任务中保持高性能,这对于需要大量计算和推理的任务至关重要。
  • 复杂问题解决:Opus 4 擅长解决复杂的编码问题,能够处理其他模型无法解决的难题。
  • 代理工作流程:Opus 4 能够高效地执行代理工作流程,这意味着它可以自动化许多重复性的编码任务,从而提高开发效率。

行业认可

  • Cursor:认为 Opus 4 是编码领域的最新技术,并在复杂代码库理解方面实现了飞跃。
  • Replit:报告称 Opus 4 提高了精度,并在跨多个文件的复杂更改方面取得了显著进展。
  • Block:称 Opus 4 是第一个在其代理 codename goose 中提高编辑和调试期间代码质量的模型,同时保持了完整的性能和可靠性。
  • Rakuten:通过一个要求苛刻的开源重构验证了 Opus 4 的能力,该重构独立运行了 7 个小时,并保持了持续的性能。
  • Cognition:指出 Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了以前模型遗漏的关键操作。

Claude Sonnet 4:性能与效率的完美结合

Claude Sonnet 4 是对 Claude Sonnet 3.7 的重大升级,在提供卓越的编码和推理能力的同时,能够更精确地响应指令。Sonnet 4 在性能和效率之间实现了最佳平衡,使其成为内部和外部用例的理想选择。虽然在大多数领域不如 Opus 4,但 Sonnet 4 提供了能力和实用性的最佳组合。

主要优势

  • 卓越的编码能力:Sonnet 4 在 SWE-bench 上取得了 72.7% 的领先成绩,证明了其在编码方面的卓越能力。
  • 增强的可操纵性:Sonnet 4 具有增强的可操纵性,可以更好地控制实现。
  • 平衡的性能和效率:Sonnet 4 在性能和效率之间实现了最佳平衡,使其成为各种用例的理想选择。

行业认可

  • GitHub:表示 Claude Sonnet 4 在代理场景中表现出色,并将作为 GitHub Copilot 中新的编码代理的模型引入。
  • Manus:强调了 Sonnet 4 在遵循复杂指令、清晰推理和美观输出方面的改进。
  • iGent:报告称 Sonnet 4 擅长自主多功能应用开发,以及显著改进的问题解决和代码库导航——将导航错误从 20% 减少到接近于零。
  • Sourcegraph:表示该模型显示出作为软件开发领域重大飞跃的希望——更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。
  • Augment Code:报告称 Sonnet 4 具有更高的成功率、更精确的代码编辑和更细致的复杂任务处理,使其成为其主要模型的首选。

这些模型提升了客户在各个领域的 AI 战略:Opus 4 推动了编码、研究、写作和科学发现领域的边界,而 Sonnet 4 作为 Sonnet 3.7 的即时升级,将前沿性能带到了日常用例中。

Bar chart comparison between Claude and other LLMs on software engineering tasks

Claude 4 模型在 SWE-bench Verified 上处于领先地位,这是一个衡量实际软件工程任务性能的基准。有关方法的更多信息,请参见附录。

模型改进:超越性能

除了扩展的工具使用思维、并行工具执行和记忆改进之外,Anthropic 还显著减少了模型使用捷径或漏洞来完成任务的行为。与 Sonnet 3.7 相比,这两个模型在这种行为上的可能性降低了 65%,尤其是在容易出现捷径和漏洞的代理任务中。

Claude Opus 4 在记忆能力方面也大大优于所有以前的模型。当开发人员构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 擅长创建和维护“记忆文件”以存储关键信息。这可以更好地长期感知任务、连贯性以及代理任务的性能——例如 Opus 4 在玩 Pokémon 时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

记忆:当被授予访问本地文件的权限时,Claude Opus 4 会记录关键信息以帮助提高其游戏水平。上面描述的笔记是 Opus 4 在玩 Pokémon 时记下的真实笔记。

最后,Anthropic 为 Claude 4 模型引入了思维摘要,该模型使用较小的模型来压缩冗长的思维过程。这种总结只需要大约 5% 的时间——大多数思维过程都足够短,可以完全显示。需要原始思维链以进行高级提示工程的用户可以联系销售以获取我们新的开发者模式的完全访问权限。

Claude Code:赋能开发者

Claude Code 现已全面上市,它将 Claude 的强大功能带到了您更多的开发工作流程中——在终端、您最喜欢的 IDE 中以及在后台使用 Claude Code SDK 运行。

适用于 VS Code 和 JetBrains 的新 beta 扩展将 Claude Code 直接集成到您的 IDE 中。Claude 提出的编辑建议会以内联方式显示在您的文件中,从而简化了熟悉编辑器界面中的审查和跟踪。只需在您的 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心代理来构建您自己的代理和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的功能的示例:GitHub 上的 Claude Code,目前处于 beta 阶段。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。

快速上手

这些模型是迈向虚拟合作者的一大步——保持完整的上下文、专注于更长的项目并推动变革性影响。它们经过广泛的测试和评估,以最大限度地降低风险并最大限度地提高安全性,包括实施措施以实现更高的 AI 安全级别,如 ASL-3。

Anthropic 很高兴看到您将创造什么。立即开始使用 ClaudeClaude Code 或您选择的平台。

一如既往,您的 [反馈](mailto: feedback@anthropic.com) 帮助我们改进。

附录

性能基准数据来源

性能基准报告

Claude Opus 4 和 Sonnet 4 是混合推理模型。此博客文章中报告的基准显示了在有或没有扩展思维的情况下获得的最高分数。我们已在下面注明了每个结果是否使用了扩展思维:

  • 没有扩展思维:SWE-bench Verified, Terminal-bench
  • 扩展思维(最多 64K 个 tokens):
    • TAU-bench(没有报告没有扩展思维的结果)
    • GPQA Diamond(没有扩展思维:Opus 4 得分为 74.9%,Sonnet 4 得分为 70.0%)
    • MMMLU(没有扩展思维:Opus 4 得分为 87.4%,Sonnet 4 得分为 85.4%)
    • MMMU(没有扩展思维:Opus 4 得分为 73.7%,Sonnet 4 得分为 72.6%)
    • AIME(没有扩展思维:Opus 4 得分为 33.9%,Sonnet 4 得分为 33.1%)

TAU-bench 方法论

分数是通过向航空公司和零售代理政策添加提示来实现的,该提示指示 Claude 更好地利用其推理能力,同时使用扩展的工具使用思维。该模型被鼓励在解决问题时写下其想法,这与我们通常的思维模式不同,在多轮轨迹中最好地利用其推理能力。为了适应 Claude 因利用更多思维而产生的额外步骤,最大步骤数(按模型完成计数)从 30 增加到 100(大多数轨迹在 30 步以下完成,只有一个轨迹达到 50 步以上)。

SWE-bench 方法论

对于 Claude 4 系列模型,我们继续使用相同的简单支架,该支架仅为模型配备了我们在先前版本中描述的两种工具 此处——bash 工具和通过字符串替换进行操作的文件编辑工具。我们不再包括 Claude 3.7 Sonnet 使用的第三个“计划工具”。在所有 Claude 4 模型上,我们报告了 500 个完整问题的分数。OpenAI 模型的得分报告为 477 个问题子集

对于我们的“高计算”数字,我们采用额外的复杂性和并行测试时间计算,如下所示:

  • 我们对多个并行尝试进行采样。
  • 我们放弃破坏存储库中可见回归测试的补丁,类似于 Agentless (Xia et al. 2024) 采用的拒绝采样方法;请注意,未使用隐藏的测试信息。
  • 然后,我们使用内部评分模型从剩余的尝试中选择最佳候选者。

这导致 Opus 4 和 Sonnet 4 的得分分别为 79.4% 和 80.2%。