Anthropic推出Claude Opus 4和Sonnet 4：AI模型的新标杆

在人工智能领域，Anthropic 公司于 2025 年 5 月 22 日宣布推出其新一代 Claude 模型：Claude Opus 4 和 Claude Sonnet 4。这两款模型在编码、高级推理和 AI 代理方面设立了新的行业标准，标志着 AI 技术发展的一个重要里程碑。

Illustration of Claude juggling several tasks in parallel

Claude Opus 4：编码能力的巅峰

Claude Opus 4 被誉为全球最佳的编码模型，它在复杂、长期运行的任务和代理工作流程中表现出卓越的持续性能。这款模型能够连续工作数小时，处理需要集中精力且包含数千个步骤的任务，这大大提升了 AI 代理的能力上限。Cursor 认为 Opus 4 在编码方面达到了最先进的水平，并在复杂代码库理解方面实现了飞跃。Replit 也报告称，Opus 4 在跨多个文件的复杂更改方面表现出更高的精度和显著的进步。Block 则表示，Opus 4 是首个能够在其代理 codename goose 中提高代码质量（在编辑和调试过程中）的模型，同时保持了全面的性能和可靠性。Rakuten 通过一个需要独立运行 7 小时且性能稳定的高要求开源重构项目，验证了 Opus 4 的卓越能力。Cognition 指出，Opus 4 擅长解决其他模型无法应对的复杂挑战，成功处理了先前模型遗漏的关键操作。

Claude Sonnet 4：性能与效率的完美平衡

Claude Sonnet 4 是对其前代产品 Claude Sonnet 3.7 的一次重大升级，在编码和推理方面表现更出色，同时能够更精确地响应用户指令。该模型在 SWE-bench 上取得了 72.7% 的优秀成绩。GitHub 宣布将采用 Claude Sonnet 4 作为 GitHub Copilot 中新型编码代理的驱动模型。Manus 强调了 Sonnet 4 在遵循复杂指令、清晰推理和生成美观输出方面的改进。iGent 报告称，Sonnet 4 擅长自主进行多功能应用开发，并在问题解决和代码库导航方面有显著提升——将导航错误率从 20% 降低到接近于零。Sourcegraph 认为该模型在软件开发方面展现出巨大的潜力——能够更长时间地保持状态、更深入地理解问题，并提供更优雅的代码质量。Augment Code 报告称，Sonnet 4 具有更高的成功率、更精确的代码编辑能力以及在处理复杂任务时更谨慎的工作态度，这使其成为他们的首选模型。

扩展思维与工具使用

Anthropic 还宣布，Claude Opus 4 和 Sonnet 4 现在支持扩展思维与工具使用（beta 版）。这意味着这两款模型可以在扩展思维过程中使用工具，比如网络搜索，从而在推理和工具使用之间进行切换，进而提高响应质量。此外，两款模型还可以并行使用工具，更精确地遵循指令，并且在开发者授予访问本地文件的权限后，能够显著提升记忆能力，提取和保存关键事实，以保持连续性并逐步构建隐性知识。

Claude Code 全面上市

在经过广泛的积极反馈后，Claude Code 现已全面上市，为开发者提供更强大的协作能力。Claude Code 现在支持通过 GitHub Actions 执行后台任务，并与 VS Code 和 JetBrains 实现原生集成，可以直接在文件中显示编辑内容，从而实现无缝的结对编程。

API 功能升级

Anthropic API 发布了四项新功能，使开发者能够构建更强大的 AI 代理：代码执行工具、MCP 连接器、Files API 以及缓存提示的功能（最长可达一小时）。

混合模型与定价

Claude Opus 4 和 Sonnet 4 是混合模型，提供两种模式：近乎即时的响应和用于更深入推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 计划均包含这两款模型和扩展思维功能，Sonnet 4 也可供免费用户使用。这两款模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致：Opus 4 的输入/输出价格为每百万 tokens 15 美元/75 美元，Sonnet 4 的价格为每百万 tokens 3 美元/15 美元。

模型性能提升

除了扩展思维与工具使用、并行工具执行以及记忆能力改进之外，Anthropic 还显著降低了模型使用捷径或漏洞来完成任务的行为。在特别容易出现捷径和漏洞的代理任务中，这两款模型发生此类行为的可能性比 Sonnet 3.7 降低了 65%。

Claude Opus 4 在记忆能力方面也大大优于所有先前的模型。当开发者构建允许 Claude 访问本地文件的应用程序时，Opus 4 能够熟练地创建和维护“记忆文件”来存储关键信息。这有助于提升长期任务感知能力、连贯性以及代理任务的性能——例如，Opus 4 在玩 Pokémon 时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

最后，Anthropic 为 Claude 4 模型引入了思维摘要，使用较小的模型来浓缩冗长的思考过程。这种摘要仅在 5% 的情况下需要——大多数思考过程都足够短，可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门，以获取对我们新的开发者模式的完全访问权限。

Claude Code 的强大功能

Claude Code 现已全面上市，它将 Claude 的强大功能带到您的更多开发工作流程中——在终端、您最喜欢的 IDE 中，以及在 Claude Code SDK 的后台运行。

适用于 VS Code 和 JetBrains 的新 beta 扩展将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑会以内联方式显示在您的文件中，从而简化了在熟悉的编辑器界面中的审查和跟踪。只需在您的 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外，Anthropic 还发布了一个可扩展的 Claude Code SDK，因此您可以使用与 Claude Code 相同的核心代理来构建您自己的代理和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的功能示例：GitHub 上的 Claude Code（目前为 beta 版）。在 PR 上标记 Claude Code 以响应审查者的反馈、修复 CI 错误或修改代码。要安装，请从 Claude Code 中运行 /install-github-app。

总结

Anthropic 推出的 Claude Opus 4 和 Sonnet 4 代表了 AI 技术的显著进步。这些模型在编码、推理和代理任务方面的卓越性能，为各行各业的开发者和企业提供了强大的工具，助力他们构建更智能、更高效的应用程序和解决方案。随着 Claude Code 的全面上市和 API 功能的不断升级，Anthropic 将继续引领 AI 创新的浪潮，为人类创造更美好的未来。

Bar chart comparison between Claude and other LLMs on software engineering tasks