2025 年 5 月 22 日,Anthropic 发布了其新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,为编码、高级推理和 AI Agent 设立了新标准。Claude Opus 4 被誉为世界上最好的编码模型,Claude Sonnet 4 则是 Claude Sonnet 3.7 的重大升级,在提供卓越编码和推理能力的同时,能更精确地响应指令。
新模型的主要亮点
- 扩展思维与工具使用(Beta):两种模型都可以在扩展思维过程中使用工具(如网页搜索),从而在推理和工具使用之间切换,以改进响应。
- 新模型能力:两种模型都可以并行使用工具,更精确地遵循指令。当开发者授予访问本地文件的权限时,模型能显著提升记忆能力,提取并保存关键信息,以保持连续性并随时间推移构建隐性知识。
- Claude Code 正式发布:在收到广泛积极的反馈后,Anthropic 扩展了开发者与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 进行后台任务,并与 VS Code 和 JetBrains 原生集成,从而直接在文件中显示编辑内容,实现无缝的配对编程。
- 全新 API 能力:Anthropic API 发布了四种新功能,使开发者能够构建更强大的 AI Agent:代码执行工具、MCP 连接器、Files API 以及缓存提示长达一小时的能力。
Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深入推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 计划都包含这两种模型和扩展思维,Sonnet 4 也可供免费用户使用。两种模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 token 15/75 美元(输入/输出),Sonnet 4 为 3/15 美元。
Claude 4 的卓越性能
Claude Opus 4 是 Anthropic 迄今为止最强大的模型,也是世界上最好的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均处于领先地位。它在需要集中精力且包含数千个步骤的长时间运行任务中表现出色,可以持续工作数小时,大幅超越所有 Sonnet 模型,并显著扩展了 AI Agent 的能力范围。
行业评价
- Cursor 认为 Claude Opus 4 是最先进的编码模型,在复杂代码库理解方面实现了飞跃。
- Replit 报告称,该模型提高了精度,并在跨多个文件的复杂更改方面取得了显著进展。
- Block 称其为首个在其 Agent(代号 Goose)中提高编辑和调试期间代码质量,同时保持完整性能和可靠性的模型。
- Rakuten 通过一项需要独立运行 7 小时并保持持续性能的严格的开源重构验证了其能力。
- Cognition 指出,Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了以前模型遗漏的关键操作。
Claude Sonnet 4 显著改进了 Sonnet 3.7 的领先能力,在 SWE-bench 上取得了 72.7% 的出色成绩。该模型在性能和效率之间实现了平衡,适用于内部和外部用例,并具有增强的可操纵性,可以更好地控制实现。
合作伙伴反馈
- GitHub 表示,Claude Sonnet 4 在 Agent 场景中表现出色,并将推出它作为 GitHub Copilot 中新的编码 Agent 的驱动模型。
- Manus 强调了它在遵循复杂指令、清晰推理和美观输出方面的改进。
- iGent 报告称,Sonnet 4 擅长自主多功能应用程序开发,并显著改进了问题解决和代码库导航能力,将导航错误从 20% 降低到接近于零。
- Sourcegraph 表示,该模型在软件开发方面显示出巨大的潜力,能够更长时间地保持在正轨上,更深入地理解问题,并提供更优雅的代码质量。
- Augment Code 报告称,该模型具有更高的成功率、更精准的代码编辑能力和更认真地完成复杂任务的能力,使其成为其主要模型的首选。
这些模型全面提升了 Anthropic 客户的 AI 战略:Opus 4 推动了编码、研究、写作和科学发现的边界,而 Sonnet 4 则将前沿性能带到了日常用例中,作为 Sonnet 3.7 的即时升级。
模型改进
除了扩展思维与工具使用、并行工具执行和记忆改进之外,Anthropic 还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易出现捷径和漏洞的 Agent 任务中,这两种模型发生此类行为的可能性比 Sonnet 3.7 低 65%。
Claude Opus 4 在记忆能力方面也显著优于所有以前的模型。当开发者构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 擅长创建和维护“记忆文件”以存储关键信息。这可以更好地长期感知任务、保持连贯性,并提高 Agent 任务的性能,例如 Opus 4 在玩 Pokémon 时创建“导航指南”。
最后,Anthropic 为 Claude 4 模型引入了思维总结,该功能使用较小的模型来浓缩冗长的思维过程。只有大约 5% 的时间需要进行此总结,因为大多数思维过程都足够短,可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门,以获取对全新开发者模式的完全访问权限。
Claude Code:开发者的得力助手
Claude Code 现已正式发布,它将 Claude 的强大功能带到您的更多开发工作流程中,包括终端、您最喜欢的 IDE,以及在后台使用 Claude Code SDK 运行。
适用于 VS Code 和 JetBrains 的全新 Beta 扩展将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑会以内联方式显示在您的文件中,从而简化了熟悉的编辑器界面中的审查和跟踪。只需在 IDE 终端中运行 Claude Code 即可安装。
除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心 Agent 构建自己的 Agent 和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的示例:GitHub 上的 Claude Code(现已推出 Beta 版)。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。
总结与展望
这些模型是 Anthropic 在构建虚拟协作者道路上迈出的重要一步,它们可以保持完整的上下文、专注于更长的项目,并推动变革性的影响。这些模型经过了广泛的测试和评估,以最大限度地降低风险并最大限度地提高安全性,包括实施针对更高 AI 安全级别(如 ASL-3)的措施。
Anthropic 对用户使用这些模型创造出的成果感到兴奋。
附录:性能基准数据来源
- Open AI: o3 launch post, o3 system card, GPT-4.1 launch post, GPT-4.1 hosted evals
- Gemini: Gemini 2.5 Pro Preview model card
- Claude: Claude 3.7 Sonnet launch post
性能基准报告
Claude Opus 4 和 Sonnet 4 是混合推理模型。此博客文章中报告的基准测试显示了使用或不使用扩展思维所获得的最高分数。Anthropic 在下面注明了每个结果是否使用了扩展思维:
- 未使用扩展思维:SWE-bench Verified、Terminal-bench
- 扩展思维(最多 64K 个 token):
- TAU-bench(未报告未使用扩展思维的结果)
- GPQA Diamond(未使用扩展思维:Opus 4 得分为 74.9%,Sonnet 4 为 70.0%)
- MMMLU(未使用扩展思维:Opus 4 得分为 87.4%,Sonnet 4 为 85.4%)
- MMMU(未使用扩展思维:Opus 4 得分为 73.7%,Sonnet 4 为 72.6%)
- AIME(未使用扩展思维:Opus 4 得分为 33.9%,Sonnet 4 为 33.1%)
TAU-bench 方法
这些分数是通过向 Airline 和 Retail Agent Policy 添加提示附录来实现的,该附录指示 Claude 在使用带有工具使用的扩展思维时更好地利用其推理能力。鼓励该模型在解决问题时写下其想法,这不同于 Anthropic 通常的思维模式,在多轮轨迹中充分利用其推理能力。为了适应 Claude 因利用更多思维而产生的额外步骤,最大步骤数(按模型完成计数)从 30 增加到 100(大多数轨迹在 30 步以下完成,只有一个轨迹达到 50 步以上)。
SWE-bench 方法
对于 Claude 4 系列模型,Anthropic 继续使用相同的简单支架,该支架仅为模型配备了 Anthropic 先前版本中描述的两种工具 here——bash 工具和一个通过字符串替换操作的文件编辑工具。Anthropic 不再包括 Claude 3.7 Sonnet 使用的 第三个“计划工具”。在所有 Claude 4 模型上,Anthropic 报告了 500 个完整问题的分数。OpenAI 模型的得分报告为 477 个问题子集。
对于 Anthropic 的“高计算”数字,Anthropic 采用了额外的复杂性和并行测试时间计算,如下所示:
- Anthropic 对多个并行尝试进行采样。
- Anthropic 丢弃破坏存储库中可见回归测试的补丁,类似于 Agentless (Xia et al. 2024) 采用的拒绝抽样方法;请注意,未使用隐藏的测试信息。
- 然后 Anthropic 使用内部评分模型从剩余的尝试中选择最佳候选者。
这导致 Opus 4 和 Sonnet 4 的得分分别为 79.4% 和 80.2%。