2025 年 5 月 22 日,Anthropic 发布了新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4。这些模型在代码编写、高级推理和 AI 代理方面树立了新标准。Claude Opus 4 被誉为世界最佳的编码模型,而 Claude Sonnet 4 则是对 Claude Sonnet 3.7 的重大升级,在提供卓越的编码和推理能力的同时,能够更准确地响应指令。
主要更新内容
除了模型本身的改进,Anthropic 还宣布了一系列新功能:
- 扩展的工具使用(测试版):这两个模型都可以在扩展思维过程中使用工具,例如网络搜索,从而在推理和工具使用之间切换,以改善响应。
- 新的模型能力:这两个模型都可以并行使用工具,更精确地遵循指令,并且在开发人员授予访问本地文件的权限时,展示出显著改进的记忆能力,提取并保存关键事实,以保持连续性并随着时间的推移构建隐性知识。
- Claude Code 正式发布:在收到大量积极反馈后,Anthropic 正在扩展开发人员与 Claude 的协作方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 进行原生集成,将编辑直接显示在文件中,以实现无缝的结对编程。
- 新的 API 功能:Anthropic 发布了四个新的 API 功能,使开发人员能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、Files API 以及缓存提示长达一小时的能力。
Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深入推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 计划包括这两种模型和扩展思维,Sonnet 4 也可供免费用户使用。这两种模型都可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 tokens 15 美元/75 美元(输入/输出),Sonnet 4 为 3 美元/15 美元。
Claude 4 模型详解
Claude Opus 4:性能巅峰
Claude Opus 4 是 Anthropic 最强大的模型,也是目前全球最佳的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均处于领先地位。它在需要集中精力且包含数千个步骤的长时间运行任务中表现出持续的性能,能够持续工作数小时,显著超越了所有 Sonnet 模型,并极大地扩展了 AI 代理的能力。
Claude Opus 4 擅长编码和复杂的解决问题,为前沿的代理产品提供支持。Cursor 称其为编码领域的最新技术,是在复杂代码库理解方面的一次飞跃。Replit 报告称,Opus 4 提高了精度,并在跨多个文件的复杂更改方面取得了显著进展。Block 称其为第一个在其代理“codename goose”中提高编辑和调试期间代码质量的模型,同时保持了完整的性能和可靠性。Rakuten 通过一个要求苛刻的开源重构验证了其能力,该重构独立运行了 7 个小时,并保持了持续的性能。Cognition 指出,Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了以前的模型遗漏的关键操作。
Claude Sonnet 4:效率与性能的平衡
Claude Sonnet 4 显著改进了 Sonnet 3.7 的行业领先能力,在编码方面表现出色,在 SWE-bench 上达到了 72.7% 的最新水平。该模型平衡了内部和外部用例的性能和效率,并增强了可操纵性,从而可以更好地控制实现。虽然在大多数领域无法与 Opus 4 相提并论,但它提供了能力和实用性的最佳组合。
GitHub 表示,Claude Sonnet 4 在代理场景中表现出色,并将将其作为 GitHub Copilot 中新的编码代理的模型。Manus 强调了它在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 擅长自主多功能应用程序开发,以及显著改进的问题解决和代码库导航,从而将导航错误从 20% 降低到接近于零。Sourcegraph 表示,该模型显示出作为软件开发领域重大飞跃的潜力——能够更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称,Sonnet 4 具有更高的成功率、更精准的代码编辑以及更认真地完成复杂任务的能力,使其成为其主要模型的首选。
这些模型全面提升了客户的 AI 战略:Opus 4 推动了编码、研究、写作和科学发现方面的界限,而 Sonnet 4 则将前沿性能带到了日常用例中,是对 Sonnet 3.7 的即时升级。
Claude 4 模型在 SWE-bench Verified 上处于领先地位,这是一个衡量实际软件工程任务性能的基准。有关方法的更多信息,请参见附录。
模型改进
除了扩展的工具使用、并行工具执行和内存改进之外,Anthropic 还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易出现捷径和漏洞的代理任务中,这两个模型参与这种行为的可能性比 Sonnet 3.7 低 65%。
Claude Opus 4 在内存能力方面也显著优于所有以前的模型。当开发人员构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 擅长创建和维护“内存文件”来存储关键信息。这解锁了更好的长期任务感知、连贯性和代理任务的性能,例如 Opus 4 在玩 Pokémon 时创建“导航指南”。
最后,Anthropic 为 Claude 4 模型引入了思维总结,该模型使用较小的模型来浓缩冗长的思维过程。只有大约 5% 的时间需要这种总结,因为大多数思维过程都足够短,可以完整显示。需要用于高级提示工程的原始思维链的用户可以联系销售部门,以获取对新的开发者模式的完全访问权限。
Claude Code:开发者的得力助手
Claude Code 现已正式发布,它将 Claude 的强大功能带到更多的开发工作流程中——在终端、您最喜欢的 IDE 中以及在后台使用 Claude Code SDK 运行。
适用于 VS Code 和 JetBrains 的新测试版扩展程序将 Claude Code 直接集成到您的 IDE 中。Claude 提出的编辑建议会以内联方式显示在您的文件中,从而简化了熟悉的编辑器界面中的审查和跟踪。只需在您的 IDE 终端中运行 Claude Code 即可安装。
除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的功能的示例:GitHub 上的 Claude Code,目前为测试版。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。
快速上手
这些模型是朝着虚拟协作者迈出的一大步——保持完整的上下文、持续关注更长的项目并推动变革性影响。它们经过了广泛的测试和评估,以最大限度地降低风险并最大限度地提高安全性,包括实施针对更高 AI 安全级别(如 ASL-3)的措施。
Anthropic 很高兴看到您将创造出什么。立即在 Claude、Claude Code 或您选择的平台上开始使用。
附录
性能基准数据来源
- Open AI: o3 发布帖子, o3 系统卡, GPT-4.1 发布帖子, GPT-4.1 托管评估
- Gemini: Gemini 2.5 Pro 预览模型卡
- Claude: Claude 3.7 Sonnet 发布帖子
性能基准报告
Claude Opus 4 和 Sonnet 4 是混合推理模型。此博客文章中报告的基准测试显示了使用或不使用扩展思维所获得的最高分数。Anthropic 在下面注明了每个结果是否使用了扩展思维:
- 未使用扩展思维:SWE-bench Verified, Terminal-bench
- 扩展思维(最多 64K 个 tokens):
- TAU-bench(未报告未使用扩展思维的结果)
- GPQA Diamond(未使用扩展思维:Opus 4 得分 74.9%,Sonnet 4 得分 70.0%)
- MMMLU(未使用扩展思维:Opus 4 得分 87.4%,Sonnet 4 得分 85.4%)
- MMMU(未使用扩展思维:Opus 4 得分 73.7%,Sonnet 4 得分 72.6%)
- AIME(未使用扩展思维:Opus 4 得分 33.9%,Sonnet 4 得分 33.1%)
TAU-bench 方法
这些分数是通过对 Airline 和 Retail Agent Policy 的提示附录实现的,该附录指示 Claude 在使用扩展思维和工具使用时更好地利用其推理能力。该模型被鼓励在解决问题时写下自己的想法,这与 Anthropic 通常的思维模式不同,在多回合轨迹中最好地利用其推理能力。为了适应 Claude 因利用更多思维而产生的额外步骤,最大步骤数(由模型完成计数)从 30 增加到 100(大多数轨迹在 30 个步骤内完成,只有一个轨迹达到 50 个步骤以上)。
SWE-bench 方法
对于 Claude 4 系列模型,Anthropic 继续使用相同的简单支架,该支架仅为模型配备了 Anthropic 先前版本中描述的两种工具:bash 工具和通过字符串替换操作的文件编辑工具。Anthropic 不再包括 Claude 3.7 Sonnet 使用的第三个“计划工具”。在所有 Claude 4 模型上,Anthropic 报告了 500 个完整问题的得分。OpenAI 模型的得分报告为 477 个问题的子集。
对于 Anthropic 的“高计算”数字,Anthropic 采用了额外的复杂性和并行测试时间计算,如下所示:
- Anthropic 采样多个并行尝试。
- Anthropic 丢弃破坏存储库中可见回归测试的补丁,类似于 Agentless 采用的拒绝采样方法;请注意,未使用隐藏的测试信息。
- 然后,Anthropic 使用内部评分模型从剩余的尝试中选择最佳候选者。
这导致 Opus 4 和 Sonnet 4 的得分分别为 79.4% 和 80.2%。
AI 领域正迎来激动人心的时刻。Claude 4 模型的发布,预示着人工智能技术将进入一个全新的发展阶段。这些模型不仅在编码和推理方面表现出色,更重要的是,它们在扩展工具使用、并行工具执行和记忆能力方面都取得了显著的进步。这些进步将极大地提升 AI 代理的能力,使它们能够更好地解决复杂问题,并为各行各业带来创新。
Claude Opus 4 作为最强大的模型,无疑将成为推动前沿研究和应用的关键力量。而 Claude Sonnet 4 则凭借其效率与性能的平衡,将在日常用例中发挥重要作用,为广大用户带来更智能、更便捷的体验。随着 Claude Code 的正式发布,开发者们也将能够更轻松地将 Claude 的强大功能集成到自己的项目中,从而加速 AI 应用的普及。
当然,AI 技术的发展也伴随着挑战。Anthropic 在确保模型安全性和可靠性方面所做的努力值得肯定。随着 AI 技术的不断进步,Anthropic 需要持续关注潜在的风险,并采取积极措施来应对。同时,也需要加强与各方的合作,共同推动 AI 技术的健康发展,为人类创造更美好的未来。
总而言之,Claude 4 模型的发布是 AI 领域的一个重要里程碑。Anthropic 的创新精神和对卓越的追求,将激励着更多的人投身于 AI 事业中,共同探索人工智能的无限可能。