Claude 4发布:Opus 4定义AI编码新高度,Sonnet 4引领效率革命

0

在人工智能领域,Anthropic 公司于 2025 年 5 月 22 日发布了其最新一代的 Claude 模型,包括 Claude Opus 4 和 Claude Sonnet 4。这些模型在编码、高级推理和 AI 代理方面设立了新的行业标准。Claude Opus 4 被誉为世界上最佳的编码模型,具备在复杂、长期运行的任务和代理工作流程中保持卓越性能的能力。同时,Claude Sonnet 4 则是对 Claude Sonnet 3.7 的重大升级,在提供卓越的编码和推理能力的同时,能够更精准地响应用户的指令。

Illustration of Claude juggling several tasks in parallel

Claude Opus 4:编码能力的巅峰

Claude Opus 4 代表了 Anthropic 在人工智能技术上的最新突破。它不仅是目前最强大的模型,更在编码领域傲视群雄,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)等基准测试中均名列前茅。这款模型在处理需要持续专注和数千个步骤的长时任务中表现出色,能够连续工作数小时,这显著超越了所有 Sonnet 模型,并极大地拓展了 AI 代理的应用范围。

一些行业领军企业已经开始采用 Claude Opus 4,并对其性能赞不绝口。例如,Cursor 认为它是目前最先进的编码模型,在理解复杂代码库方面实现了质的飞跃。Replit 则强调了其在复杂变更中的精确性和显著进步,特别是在跨多个文件的操作中。Block 称其为首个能够在编辑和调试过程中提升代码质量的模型,同时保持了其代理 codename goose 的完整性能和可靠性。Rakuten 通过一个需要独立运行 7 小时的高难度开源重构项目验证了其卓越能力,并对其持续的性能表示赞赏。Cognition 也指出,Opus 4 擅长解决其他模型无法处理的复杂挑战,成功处理了以往模型常常遗漏的关键操作。

Claude Sonnet 4:性能与效率的完美平衡

Claude Sonnet 4 在 Sonnet 3.7 已经领先业界的基础上,实现了显著的改进,在 SWE-bench 基准测试中达到了 72.7% 的先进水平。该模型在性能和效率之间实现了最佳平衡,适用于内部和外部的各种应用场景,并通过增强的可控性,使用户能够更好地控制其具体实施。

GitHub 表示,Claude Sonnet 4 在代理场景中表现出色,并计划将其作为 GitHub Copilot 中新编码代理的驱动模型。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 在自主多功能应用开发方面表现卓越,并在问题解决和代码库导航方面实现了显著改进,将导航错误率从 20% 降低到接近于零。Sourcegraph 认为,该模型在软件开发方面展现出了巨大的潜力,能够更长时间地保持专注,更深入地理解问题,并提供更优雅的代码。Augment Code 报告称,Sonnet 4 拥有更高的成功率,能够进行更精准的代码编辑,并更谨慎地处理复杂任务,使其成为其首选模型。

这些模型的进步将全面提升客户的 AI 策略:Opus 4 在编码、研究、写作和科学发现方面实现了突破,而 Sonnet 4 则将前沿性能带到了日常应用场景中,是从 Sonnet 3.7 的即时升级。

Bar chart comparison between Claude and other LLMs on software engineering tasks

Claude 4 模型在 SWE-bench Verified(一个衡量实际软件工程任务性能的基准)上处于领先地位。有关更多方法信息,请参见附录。

模型改进

除了扩展的工具使用、并行工具执行和内存改进外,Anthropic 还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易出现捷径和漏洞的代理任务中,这两个模型参与这种行为的可能性比 Sonnet 3.7 降低了 65%。

Claude Opus 4 在内存功能方面也大大优于所有以前的模型。当开发人员构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 擅长创建和维护“内存文件”以存储关键信息。这可以提高长期任务意识、连贯性和代理任务的性能,例如 Opus 4 在玩 Pokémon 时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

当被授予访问本地文件的权限后,Claude Opus 4 能够记录关键信息,从而显著改善其游戏体验。上图展示的笔记是 Opus 4 在玩 Pokémon 游戏时自行记录的真实游戏笔记。

此外,Anthropic 还为 Claude 4 模型引入了思维总结功能,该功能使用较小的模型来浓缩冗长的思考过程。这种总结大约只需要在 5% 的时间内进行——大多数思考过程都足够短,可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门,了解 Anthropic 新的开发者模式,以保留完全访问权限。

Claude Code

Claude Code 现已全面上市,它将 Claude 的强大功能带到您的更多开发工作流程中——在终端、您最喜欢的 IDE 中以及在后台使用 Claude Code SDK 运行。

用于 VS Code 和 JetBrains 的新测试版扩展将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑会以内联方式显示在您的文件中,从而简化了熟悉的编辑器界面中的审阅和跟踪。只需在您的 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 还在发布可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。Anthropic 还在发布 SDK 可能实现的示例:GitHub 上的 Claude Code 现已推出测试版。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。

开始使用

这些模型是迈向虚拟协作者的一大步——保持完整的上下文,持续关注更长的项目,并推动变革性影响。它们经过广泛的测试和评估,以最大限度地降低风险并最大限度地提高安全性,包括实施针对更高 AI 安全级别(如 ASL-3)的措施。

Anthropic 很高兴看到您将创造什么。立即开始在 Claude、Claude Code 或您选择的平台上使用。

附录

性能基准数据来源:

  • Open AI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
  • Gemini: Gemini 2.5 Pro Preview model card
  • Claude: Claude 3.7 Sonnet launch post

性能基准报告:

Claude Opus 4 和 Sonnet 4 是混合推理模型。此博客文章中报告的基准测试显示了在有或没有扩展思考的情况下获得的最高分数。Anthropic 在下面注明了每个结果是否使用了扩展思考:

  • 没有扩展思考:SWE-bench Verified,Terminal-bench
  • 扩展思考(最多 64K 个token):
    • TAU-bench(没有报告没有扩展思考的结果)
    • GPQA Diamond(没有扩展思考:Opus 4 得分为 74.9%,Sonnet 4 为 70.0%)
    • MMMLU(没有扩展思考:Opus 4 得分为 87.4%,Sonnet 4 为 85.4%)
    • MMMU(没有扩展思考:Opus 4 得分为 73.7%,Sonnet 4 为 72.6%)
    • AIME(没有扩展思考:Opus 4 得分为 33.9%,Sonnet 4 为 33.1%)

TAU-bench 方法:

在使用扩展思考工具时,通过提示添加到航空公司和零售代理政策中,Claude 能够更好地利用其推理能力,从而获得更高的分数。该模型被鼓励在解决问题时写下其想法,这与 Anthropic 通常的思考模式不同,在多轮轨迹中最好地利用其推理能力。为了适应 Claude 通过利用更多思考而产生的额外步骤,最大步骤数(由模型完成数计算)从 30 增加到 100(大多数轨迹在 30 步内完成,只有一个轨迹达到 50 步以上)。

SWE-bench 方法:

对于 Claude 4 系列模型,Anthropic 继续使用相同的简单支架,该支架仅为模型配备了 Anthropic 先前版本中描述的两种工具——bash 工具和通过字符串替换运行的文件编辑工具。Anthropic 不再包括 Claude 3.7 Sonnet 使用的第三个“规划工具”。在所有 Claude 4 模型上,Anthropic 报告了 500 个完整问题的分数。OpenAI 模型的得分报告为 477 个问题子集。

对于 Anthropic 的“高计算”数字,Anthropic 采用了额外的复杂性和并行测试时计算,如下所示:

  • Anthropic 采样多个并行尝试。
  • Anthropic 丢弃破坏存储库中可见回归测试的补丁,类似于 Agentless 采用的拒绝采样方法;请注意,未使用隐藏的测试信息。
  • 然后,Anthropic 使用内部评分模型从剩余的尝试中选择最佳候选者。

这导致 Opus 4 和 Sonnet 4 的得分分别为 79.4% 和 80.2%。