Claude 4：AI编码与推理的新纪元，Opus 4与Sonnet 4引领未来智能

在人工智能领域，Anthropic 公司于 2025 年 5 月 22 日隆重推出了其最新一代的 Claude 模型：Claude Opus 4 和 Claude Sonnet 4。这两款模型不仅在编码、高级推理方面树立了新的行业标杆，更预示着 AI 智能代理时代的到来。本文将深入剖析这两款模型的卓越性能、全新功能以及它们对未来 AI 应用的潜在影响。

Claude Opus 4：重新定义编码的极限

Claude Opus 4 被誉为目前全球顶尖的编码模型。它不仅能胜任复杂的、长时间运行的任务，还能在智能代理工作流程中保持卓越的性能。这款模型在 SWE-bench 和 Terminal-bench 这两个业界公认的基准测试中均取得了领先地位，充分证明了其在软件工程领域的强大实力。具体来说，Claude Opus 4 在 SWE-bench 上的得分高达 72.5%，在 Terminal-bench 上的得分也达到了 43.2%。

Illustration of Claude juggling several tasks in parallel

多家知名企业对 Claude Opus 4 的卓越性能给予了高度评价。Cursor 称其为“最先进的编码模型”，并认为它在理解复杂代码库方面实现了质的飞跃。Replit 则表示，Opus 4 在处理跨多个文件的复杂变更时，展现出了更高的精确性和显著的进步。Block 公司更是称赞 Opus 4 是首个能够在代码编辑和调试过程中提高代码质量的模型，同时还能保持其智能代理（代号为“goose”）的完整性能和可靠性。Rakuten 通过一项长达 7 小时的开源重构测试验证了 Opus 4 的卓越性能。Cognition 指出，Opus 4 擅长解决其他模型无法处理的复杂挑战，能够成功执行之前的模型会遗漏的关键操作。

Claude Sonnet 4：性能与效率的完美结合

Claude Sonnet 4 是对 Claude Sonnet 3.7 的一次重大升级。它不仅在编码和推理方面表现出色，还能更精确地响应用户的指令。尽管在大多数领域，Sonnet 4 的性能无法与 Opus 4 相提并论，但它在能力和实用性之间实现了最佳的平衡。在 SWE-bench 基准测试中，Sonnet 4 的得分高达 72.7%，充分展示了其在编码方面的强大实力。

GitHub 宣布，Claude Sonnet 4 在智能代理场景中表现出色，并将作为其 GitHub Copilot 中新型编码代理的驱动模型。Manus 强调了 Sonnet 4 在遵循复杂指令、清晰推理和生成美观输出方面的改进。iGent 报告称，Sonnet 4 擅长自主进行多功能应用开发，并能显著提升问题解决能力和代码库导航能力，将导航错误率从 20% 降低到接近于零。Sourcegraph 认为，Sonnet 4 有望成为软件开发领域的一次重大飞跃——它能够更长时间地保持专注，更深入地理解问题，并提供更优雅的代码。Augment Code 则表示，Sonnet 4 具有更高的成功率，能够进行更精准的代码编辑，并能更谨慎地完成复杂任务，使其成为其首选模型。

全新功能：扩展思维、并行工具使用与记忆能力提升

除了卓越的性能之外，Claude Opus 4 和 Sonnet 4 还引入了一系列创新功能，进一步提升了它们在实际应用中的价值：

扩展思维与工具使用（beta 版）：这两款模型都可以在扩展思维过程中使用工具，例如网络搜索，从而在推理和工具使用之间进行切换，以改进响应。
全新模型能力：这两款模型都支持并行使用工具，能够更精确地遵循指令。此外，当开发者授予它们访问本地文件的权限时，它们还能展现出显著的记忆能力提升，能够提取并保存关键信息，从而保持连续性并建立隐性知识。
Claude Code 正式发布：在经过广泛的积极反馈后，Anthropic 公司正式发布了 Claude Code，进一步拓展了开发者与 Claude 协作的方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务，并能与 VS Code 和 JetBrains 进行原生集成，从而直接在文件中显示编辑内容，实现无缝的结对编程。
全新 API 功能：Anthropic 公司还发布了四个全新的 API 功能，使开发者能够构建更强大的 AI 代理：代码执行工具、MCP 连接器、文件 API 以及缓存提示的能力（最长可达一小时）。

Bar chart comparison between Claude and other LLMs on software engineering tasks

模型改进：减少投机取巧行为，提升记忆能力

除了上述新功能外，Anthropic 公司还对 Claude Opus 4 和 Sonnet 4 进行了多项改进，以提升它们的可靠性和安全性。

首先，Anthropic 公司显著减少了模型使用捷径或漏洞来完成任务的行为。在容易出现投机取巧行为的代理任务中，这两款模型在这方面的可能性比 Sonnet 3.7 降低了 65%。

其次，Claude Opus 4 在记忆能力方面也超越了以往的所有模型。当开发者构建允许 Claude 访问本地文件的应用程序时，Opus 4 能够熟练地创建和维护“记忆文件”来存储关键信息。这有助于提升其在长期任务中的感知能力、连贯性和性能。例如，Opus 4 在玩宝可梦游戏时，会创建一个“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

最后，Anthropic 公司还为 Claude 4 模型引入了思维摘要功能，该功能使用一个较小的模型来浓缩冗长的思考过程。不过，这种摘要功能仅在 5% 的情况下需要使用——大多数思考过程都足够短，可以直接完整显示。需要原始思维链来进行高级提示工程的用户可以联系销售部门，以获取我们新的开发者模式的完整访问权限。

Claude Code：赋能开发者，简化工作流程

Claude Code 现已正式发布，它将 Claude 的强大功能带到了更多开发工作流程中——无论是在终端、您最喜欢的 IDE 中，还是在后台使用 Claude Code SDK 运行。

适用于 VS Code 和 JetBrains 的全新 Beta 版扩展程序将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑会以内联方式显示在您的文件中，从而简化了熟悉编辑器界面中的审查和跟踪。只需在 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外，Anthropic 公司还发布了一个可扩展的 Claude Code SDK，因此您可以使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。Anthropic 公司还发布了一个使用 SDK 可以实现的功能的示例：GitHub 上的 Claude Code（目前为 Beta 版）。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装，请从 Claude Code 中运行 /install-github-app。

结论

Claude Opus 4 和 Sonnet 4 的发布标志着 AI 技术发展的一个重要里程碑。它们不仅在编码、推理和记忆能力方面取得了显著的进步，还为开发者提供了更强大的工具和更灵活的工作流程。随着 AI 技术的不断发展，我们有理由相信，Claude 4 将在各行各业发挥越来越重要的作用，为人类创造更美好的未来。