Claude 4发布:代码编写与AI推理的新突破

1

2025年5月22日,Anthropic 发布了新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4。这些模型在代码编写、高级推理和 AI 代理方面设立了新的标准,标志着人工智能技术发展的一个重要里程碑。

Claude Opus 4:代码编写的新标杆

Claude Opus 4 被誉为目前世界上最好的代码编写模型,它在复杂、长期运行的任务和代理工作流程中表现出色。该模型能够持续进行数小时的工作,处理需要专注和数千个步骤的任务,这极大地扩展了 AI 代理的能力。

一些行业领军企业已经开始采用 Claude Opus 4,并对其性能赞不绝口。

  • Cursor 认为 Claude Opus 4 是代码编写领域的最新技术,是复杂代码库理解方面的一大飞跃。
  • Replit 报告称,该模型在跨多个文件的复杂更改方面提高了精度,实现了显著的进步。
  • Block 称其为第一个在其代理 codename goose 中提高编辑和调试期间代码质量的模型,同时保持了全面的性能和可靠性。
  • Rakuten 通过一个需要独立运行 7 小时的要求苛刻的开源重构验证了其能力,并保持了持续的性能。
  • Cognition 指出,Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了以前模型遗漏的关键操作。

Illustration of Claude juggling several tasks in parallel

Claude Sonnet 4:性能与效率的完美结合

Claude Sonnet 4 是对其前代产品 Claude Sonnet 3.7 的重大升级,在代码编写和推理方面表现更出色,同时能更准确地响应指令。虽然在大多数领域无法与 Opus 4 相提并论,但它在能力和实用性之间实现了最佳的平衡。

GitHub 宣布将采用 Claude Sonnet 4 作为 GitHub Copilot 中新的编码代理的驱动模型。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 擅长自主多功能应用程序开发,以及显著改进的问题解决和代码库导航——将导航错误从 20% 降低到接近于零。Sourcegraph 表示,该模型在软件开发方面显示出了巨大的潜力——能够更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称,更高的成功率、更精确的代码编辑以及更仔细地完成复杂任务,使其成为其首选模型。

这些模型的进步推动了客户在各个领域的人工智能战略:Opus 4 突破了编码、研究、写作和科学发现的界限,而 Sonnet 4 则将前沿性能带到了日常用例中,是对 Sonnet 3.7 的即时升级。

模型改进:超越性能

除了扩展的工具使用思维、并行工具执行和内存改进之外,Anthropic 还显著减少了模型使用捷径或漏洞来完成任务的行为。与 Sonnet 3.7 相比,这两种模型在这种行为上的可能性降低了 65%。

Claude Opus 4 在记忆能力方面也大大优于所有以前的模型。当开发人员构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 擅长创建和维护“记忆文件”以存储关键信息。这可以更好地长期感知任务、连贯性以及代理任务的性能——例如,Opus 4 在玩 Pokémon 时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

Claude Code:赋能开发者

Claude Code 现已全面上市,可将 Claude 的强大功能引入到更多的开发工作流程中——在终端、您最喜欢的 IDE 中以及在后台与 Claude Code SDK 一起运行。

适用于 VS Code 和 JetBrains 的新 beta 扩展将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑会以内联方式显示在您的文件中,从而简化了熟悉的编辑器界面中的审查和跟踪。只需在 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的功能的示例:GitHub 上的 Claude Code,现在处于 beta 阶段。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。

扩展思维与工具使用

Claude Opus 4 和 Sonnet 4 引入了扩展思维与工具使用功能。这两个模型都可以在扩展思维期间使用工具(如 Web 搜索),从而使 Claude 能够在推理和工具使用之间交替,以改进响应。此外,这两个模型都可以并行使用工具,更准确地遵循指令,并且——在开发人员授予访问本地文件的权限后——展示出显著改进的记忆能力,提取和保存关键事实,以保持连续性并随着时间的推移构建隐性知识。

API 功能更新

Anthropic API 发布了四项新功能,使开发人员能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、Files API 以及缓存提示长达一小时的能力。

定价与可用性

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深入推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 计划包括这两种模型和扩展思维,Sonnet 4 也可供免费用户使用。这两种模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万个token 15 美元/75 美元(输入/输出),Sonnet 4 为 3 美元/15 美元。

总结

Claude 4 模型的发布是 Anthropic 在 AI 领域迈出的重要一步。这些模型在代码编写、推理和代理任务方面的卓越性能,以及扩展的工具使用、并行工具执行和记忆能力,为开发者提供了构建更强大、更智能的应用程序的 возможности。随着 Claude Code 的全面上市,开发者可以更轻松地将 Claude 的功能集成到他们的工作流程中,从而提高生产力和创新能力。

Bar chart comparison between Claude and other LLMs on software engineering tasks

附录

性能基准数据来源

性能基准报告

Claude Opus 4 和 Sonnet 4 是混合推理模型。此博客文章中报告的基准测试显示了使用或不使用扩展思维所获得的最高分数。我们已在下面注明了每个结果是否使用了扩展思维:

  • 没有扩展思维:SWE-bench Verified、Terminal-bench
  • 扩展思维(最多 64K 个 token):
    • TAU-bench(没有报告没有扩展思维的结果)
    • GPQA Diamond(没有扩展思维:Opus 4 得分为 74.9%,Sonnet 4 为 70.0%)
    • MMMLU(没有扩展思维:Opus 4 得分为 87.4%,Sonnet 4 为 85.4%)
    • MMMU(没有扩展思维:Opus 4 得分为 73.7%,Sonnet 4 为 72.6%)
    • AIME(没有扩展思维:Opus 4 得分为 33.9%,Sonnet 4 为 33.1%)

TAU-bench 方法论

通过提示附录实现了分数,该附录针对航空公司和零售代理政策,指示 Claude 在使用扩展思维和工具使用时更好地利用其推理能力。鼓励该模型在解决问题时写下其想法,这与我们通常的思维模式不同,在多轮轨迹中最好地利用其推理能力。为了适应 Claude 因利用更多思维而产生的额外步骤,最大步骤数(按模型完成数计算)从 30 增加到 100(大多数轨迹在 30 步以内完成,只有一条轨迹达到 50 步以上)。

SWE-bench 方法论

对于 Claude 4 系列模型,我们继续使用相同的简单支架,该支架仅为模型配备了我们在先前版本 此处 中描述的两种工具——bash 工具和通过字符串替换运行的文件编辑工具。我们不再包括 Claude 3.7 Sonnet 使用的 第三个“规划工具”。在所有 Claude 4 模型上,我们报告了 500 个完整问题的分数。OpenAI 模型的得分报告在 477 个问题子集 中。

对于我们的“高计算”数字,我们采用额外的复杂性和并行测试时间计算,如下所示:

  • 我们采样多个并行尝试。
  • 我们丢弃破坏存储库中可见回归测试的补丁,类似于 Agentless (Xia et al. 2024) 采用的拒绝采样方法;请注意,未使用任何隐藏的测试信息。
  • 然后,我们使用内部评分模型从剩余的尝试中选择最佳候选者。

这导致 Opus 4 和 Sonnet 4 的分数分别为 79.4% 和 80.2%。