Claude 4重磅发布：Opus与Sonnet引领AI编码与推理新纪元

在快速发展的人工智能领域，Anthropic 公司于 2025 年 5 月 22 日宣布推出其最新一代 Claude 模型：Claude Opus 4 和 Claude Sonnet 4。这两款模型在编码、高级推理和 AI 代理方面都树立了新的标准，预示着 AI 技术应用的新篇章。

Claude Opus 4：卓越的编码能力

Claude Opus 4 被誉为世界上最佳的编码模型。它不仅在复杂的、长时间运行的任务中表现出色，而且在代理工作流程中也展现出强大的能力。这款模型的卓越性能得益于其独特的设计和先进的算法，使其能够持续高效地处理各种编码挑战。

Illustration of Claude juggling several tasks in parallel

多家公司对 Claude Opus 4 的编码能力给予了高度评价：

Cursor：认为 Opus 4 是编码领域的最新技术，并在复杂代码库理解方面实现了飞跃。
Replit：报告称其在跨多个文件的复杂更改方面提高了精确度，实现了显著的进步。
Block：称其为首个在其代理 codename goose 中提高编辑和调试期间代码质量的模型，同时保持了全面的性能和可靠性。
Rakuten：通过一项需要独立运行 7 小时且具有持续性能的苛刻的开源重构验证了其能力。
Cognition：指出 Opus 4 擅长解决其他模型无法解决的复杂挑战，成功处理了以前模型遗漏的关键操作。

Claude Sonnet 4：性能与效率的完美结合

Claude Sonnet 4 是对其前代产品 Claude Sonnet 3.7 的重大升级。它在提供卓越的编码和推理能力的同时，能够更精确地响应指令。这款模型在性能和效率之间取得了理想的平衡，使其成为内部和外部用例的理想选择。

GitHub 宣布将 Claude Sonnet 4 作为其 GitHub Copilot 中新编码代理的驱动模型。Manus 强调了其在遵循复杂指令、清晰推理和美观输出方面的改进。iGent 报告称，Sonnet 4 擅长自主多功能应用程序开发，并显著改进了问题解决和代码库导航，从而将导航错误从 20% 降低到接近于零。Sourcegraph 表示，该模型在软件开发方面展现出了巨大的潜力，能够更长时间地保持正轨，更深入地理解问题，并提供更优雅的代码质量。Augment Code 报告称，它具有更高的成功率、更精确的代码编辑和更仔细地完成复杂任务的能力，使其成为其首选模型。

扩展思维与工具使用

Claude Opus 4 和 Sonnet 4 都具备扩展思维与工具使用（测试版）功能。这意味着这些模型可以在扩展思维过程中使用工具，例如网络搜索。通过在推理和工具使用之间交替，Claude 能够显著提升其响应的质量和准确性。此外，这些模型还具备并行使用工具的能力，并能够更精确地遵循指令。当开发者授予其访问本地文件的权限时，它们还能够展现出显著改进的记忆能力，提取并保存关键事实，以保持连续性并随着时间的推移构建隐性知识。

Claude Code：赋能开发者

在经过广泛的积极反馈后，Claude Code 现已全面上市。它通过 GitHub Actions 支持后台任务，并与 VS Code 和 JetBrains 原生集成，从而扩展了开发者与 Claude 协作的方式。Claude 能够直接在文件中显示编辑内容，从而实现无缝的配对编程。

Anthropic 还发布了四个新的 API 功能，这些功能使开发者能够构建更强大的 AI 代理：代码执行工具、MCP 连接器、Files API 以及缓存提示长达一小时的能力。

模型改进：减少捷径行为并提高记忆能力

除了扩展思维与工具使用、并行工具执行和记忆改进之外，Anthropic 还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易受到捷径和漏洞影响的代理任务中，这两个模型参与这种行为的可能性比 Sonnet 3.7 降低了 65%。

Claude Opus 4 在记忆能力方面也显著优于所有以前的模型。当开发者构建提供 Claude 本地文件访问权限的应用程序时，Opus 4 能够熟练地创建和维护“记忆文件”以存储关键信息。这可以更好地长期感知任务、保持连贯性并提高代理任务的性能，例如 Opus 4 在玩 Pokémon 时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

思维总结：简化冗长的思考过程

Anthropic 为 Claude 4 模型引入了思维总结功能，该功能使用较小的模型来压缩冗长的思考过程。只有大约 5% 的时间需要进行这种总结，因为大多数思考过程都足够短，可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售以获取对我们新的开发者模式的完全访问权限。

Claude Code：集成到您的开发工作流程中

Claude Code 现已全面上市，它将 Claude 的强大功能带到您的更多开发工作流程中——在终端、您最喜欢的 IDE 中以及在后台使用 Claude Code SDK 运行。

适用于 VS Code 和 JetBrains 的新测试版扩展将 Claude Code 直接集成到您的 IDE 中。Claude 提出的编辑建议以内联方式显示在您的文件中，从而简化了熟悉编辑器界面中的审查和跟踪。只需在您的 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外，Anthropic 还发布了一个可扩展的 Claude Code SDK，因此您可以使用与 Claude Code 相同的核心代理来构建您自己的代理和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的功能的示例：GitHub 上的 Claude Code，现在是测试版。在 PR 上标记 Claude Code 以响应审阅者反馈、修复 CI 错误或修改代码。要安装，请从 Claude Code 中运行 /install-github-app。

总结

Claude Opus 4 和 Sonnet 4 的推出标志着 AI 技术发展的重要里程碑。这些模型不仅在编码、推理和代理方面表现出色，而且还具备扩展思维、工具使用和记忆改进等创新功能。随着 AI 技术的不断发展，我们有理由相信，Claude 4 系列模型将在各行各业中发挥越来越重要的作用，为人类创造更加美好的未来。

Bar chart comparison between Claude and other LLMs on software engineering tasks

Claude 4 模型在 SWE-bench Verified 上处于领先地位，SWE-bench Verified 是衡量实际软件工程任务性能的基准。有关方法的更多信息，请参见附录。

这些模型是朝着虚拟协作者迈出的一大步——保持完整的上下文，专注于更长的项目，并推动变革性的影响。它们经过了广泛的测试和评估，以最大限度地降低风险并最大限度地提高安全性，包括实施措施以实现更高的 AI 安全级别，如 ASL-3。

我们很高兴看到您将创造什么。立即开始使用 Claude、Claude Code 或您选择的平台。

与往常一样，您的 [反馈](mailto: feedback@anthropic.com) 有助于我们改进。