Claude 4:Anthropic新模型引领AI编码与推理革命

0

在快速发展的人工智能领域,Anthropic 公司于 2025 年 5 月 22 日发布了其最新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4。这两款模型在编码、高级推理和人工智能代理方面树立了新的行业标杆。 Claude Opus 4 被誉为全球最佳的编码模型,它在复杂、长时间运行的任务和代理工作流程中表现出卓越的性能。而 Claude Sonnet 4 则是对 Claude Sonnet 3.7 的重大升级,在提供卓越的编码和推理能力的同时,还能更精确地响应用户的指令。

Illustration of Claude juggling several tasks in parallel

除了这两款模型之外,Anthropic 还宣布推出一系列新功能:

  • 扩展的工具使用(测试版):Claude Opus 4 和 Sonnet 4 现在都可以在扩展思维过程中使用工具,例如网络搜索,从而使 Claude 能够在推理和工具使用之间切换,以改进响应。
  • 新的模型功能:这两款模型都能够并行使用工具,更精确地遵循指令,并且在开发人员授予访问本地文件的权限后,能够展示出显著改进的记忆能力,提取和保存关键事实,以保持连续性并随着时间的推移构建隐性知识。
  • Claude Code 正式发布:在收到广泛的积极反馈后,Anthropic 正在扩展开发人员与 Claude 协作的方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 进行原生集成,从而可以直接在文件中显示编辑内容,以实现无缝的配对编程。
  • 新的 API 功能:Anthropic 发布了四个新的 API 功能,使开发人员能够构建更强大的人工智能代理:代码执行工具、MCP 连接器、Files API 以及缓存提示长达一小时的能力。

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深入推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 计划都包含这两种模型和扩展思维,Sonnet 4 也可供免费用户使用。这两种模型都可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 的输入/输出价格为每百万 tokens 15 美元/75 美元,Sonnet 4 的价格为 3 美元/15 美元。

Claude Opus 4:性能卓越的编码模型

Claude Opus 4 是 Anthropic 迄今为止最强大的模型,也是全球最佳的编码模型,在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上均处于领先地位。它能够在需要集中精力且需要数千个步骤的长时间运行的任务中保持卓越的性能,并能够持续工作数小时,从而显著超越所有 Sonnet 模型,并极大地扩展了人工智能代理可以完成的任务。

Claude Opus 4 擅长编码和复杂的解决问题,为前沿的代理产品提供支持。Cursor 称其为编码领域的最新技术,并在复杂代码库理解方面实现了飞跃。Replit 报告称,它提高了精确度,并为跨多个文件的复杂更改带来了显著的进步。Block 称其为第一个在其代理 codename goose 中提高编辑和调试期间代码质量的模型,同时保持了完整的性能和可靠性。Rakuten 通过一项需要独立运行 7 小时且性能持续的苛刻的开源重构验证了其功能。Cognition 指出,Opus 4 擅长解决其他模型无法解决的复杂挑战,成功处理了以前的模型错过的关键操作。

Claude Sonnet 4:性能与效率的理想结合

Claude Sonnet 4 显著改进了 Sonnet 3.7 的行业领先功能,在编码方面表现出色,在 SWE-bench 上的最新技术为 72.7%。该模型平衡了内部和外部用例的性能和效率,并通过增强的操纵性来更好地控制实施。虽然在大多数领域中无法与 Opus 4 相提并论,但它提供了能力和实用性的最佳组合。

GitHub 表示,Claude Sonnet 4 在代理场景中表现出色,并将将其作为 GitHub Copilot 中新编码代理的支持模型。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称,Sonnet 4 擅长自主多功能应用程序开发,以及显著改进的问题解决和代码库导航,从而将导航错误从 20% 降低到接近于零。Sourcegraph 表示,该模型有望成为软件开发领域的一大飞跃,它可以更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称,它具有更高的成功率、更精确的代码编辑以及更仔细地完成复杂任务的能力,使其成为其主要模型的首选。

这些模型全面推进了客户的人工智能战略:Opus 4 突破了编码、研究、写作和科学发现的界限,而 Sonnet 4 则将前沿性能带到了日常用例中,作为 Sonnet 3.7 的即时升级。

Bar chart comparison between Claude and other LLMs on software engineering tasks

Claude 4 模型在 SWE-bench Verified 上处于领先地位,这是一个用于衡量实际软件工程任务性能的基准。有关方法论的更多信息,请参见附录。

模型改进:减少捷径和漏洞

除了扩展的工具使用、并行工具执行和内存改进之外,Anthropic 还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易受到捷径和漏洞影响的代理任务中,这两种模型发生这种行为的可能性比 Sonnet 3.7 低 65%。

Claude Opus 4 在内存功能方面也显著优于所有以前的模型。当开发人员构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 擅长创建和维护“内存文件”以存储关键信息。这可以更好地长期感知任务、连贯性和代理任务的性能,例如 Opus 4 在玩 Pokémon 时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

最后,Anthropic 为 Claude 4 模型引入了思维总结,该模型使用较小的模型来凝练冗长的思维过程。这种总结只需要大约 5% 的时间,因为大多数思维过程都足够短,可以完全显示。需要原始思维链以进行高级提示工程的用户可以联系销售人员,以获取对新开发者模式的完全访问权限。

Claude Code:简化开发工作流程

Claude Code 现已正式发布,它将 Claude 的强大功能带到您的更多开发工作流程中,包括终端、您最喜欢的 IDE,以及在 Claude Code SDK 的后台运行。

用于 VS Code 和 JetBrains 的新测试版扩展将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑以内联方式显示在您的文件中,从而简化了熟悉的编辑器界面中的审查和跟踪。只需在您的 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的功能示例:GitHub 上的 Claude Code,现在处于测试阶段。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。

总结

这些模型是迈向虚拟协作的一大步,它们可以保持完整的上下文、专注于更长的项目并推动变革性影响。它们经过了广泛的测试和评估,以最大限度地降低风险并最大限度地提高安全性,包括实施针对更高人工智能安全级别(如 ASL-3)的措施。

Anthropic 对用户将创造出什么感到兴奋。立即开始使用 Claude、Claude Code 或您选择的平台。

附录

性能基准数据来源

性能基准报告

Claude Opus 4 和 Sonnet 4 是混合推理模型。此博客文章中报告的基准显示了在使用或不使用扩展思维时获得的最高分数。Anthropic 在下面注明了每个结果是否使用了扩展思维:

  • 没有扩展思维:SWE-bench Verified、Terminal-bench
  • 扩展思维(最多 64K 个 tokens):
    • TAU-bench(没有报告没有扩展思维的结果)
    • GPQA Diamond(没有扩展思维:Opus 4 得分为 74.9%,Sonnet 4 得分为 70.0%)
    • MMMLU(没有扩展思维:Opus 4 得分为 87.4%,Sonnet 4 得分为 85.4%)
    • MMMU(没有扩展思维:Opus 4 得分为 73.7%,Sonnet 4 得分为 72.6%)
    • AIME(没有扩展思维:Opus 4 得分为 33.9%,Sonnet 4 得分为 33.1%)

TAU-bench 方法论

在 Airline 和 Retail Agent Policy 中,通过提示附录实现了分数,该附录指示 Claude 在使用扩展思维和工具时更好地利用其推理能力。鼓励该模型在解决问题时写下其想法,这与 Anthropic 通常的思维模式不同,在多轮轨迹中最好地利用其推理能力。为了适应 Claude 因利用更多思维而产生的额外步骤,最大步骤数(按模型完成数计算)从 30 增加到 100(大多数轨迹在 30 步以下完成,只有一条轨迹达到 50 步以上)。

SWE-bench 方法论

对于 Claude 4 系列模型,Anthropic 继续使用相同的简单支架,该支架仅为模型配备了 Anthropic 先前版本中描述的两种工具:bash 工具和通过字符串替换操作的文件编辑工具。Anthropic 不再包括 Claude 3.7 Sonnet 使用的第三个“规划工具”。在所有 Claude 4 模型上,Anthropic 报告了 500 个完整问题的分数。OpenAI 模型的得分报告为 477 个问题的子集。

对于 Anthropic 的“高计算”数字,Anthropic 采用了额外的复杂性和并行测试时计算,如下所示:

  • Anthropic 采样多个并行尝试。
  • Anthropic 放弃破坏存储库中可见回归测试的补丁,类似于 Agentless (Xia et al. 2024) 采用的拒绝采样方法;请注意,未使用隐藏的测试信息。
  • 然后,Anthropic 使用内部评分模型从剩余的尝试中选择最佳候选者。

这导致 Opus 4 和 Sonnet 4 的得分分别为 79.4% 和 80.2%。