Anthropic推出Claude Opus 4和Sonnet 4:AI模型的新标杆

0

在人工智能领域,Anthropic 公司于 2025 年 5 月 22 日宣布推出其新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4。这两款模型在编码、高级推理和 AI 代理方面设立了新的行业标准,标志着 AI 技术发展的一个重要里程碑。

Illustration of Claude juggling several tasks in parallel

Claude Opus 4:编码能力的巅峰

Claude Opus 4 被誉为全球最佳的编码模型,它在复杂、长期运行的任务和代理工作流程中表现出卓越的持续性能。这款模型能够连续工作数小时,处理需要集中精力且包含数千个步骤的任务,这大大提升了 AI 代理的能力上限。Cursor 认为 Opus 4 在编码方面达到了最先进的水平,并在复杂代码库理解方面实现了飞跃。Replit 也报告称,Opus 4 在跨多个文件的复杂更改方面表现出更高的精度和显著的进步。Block 则表示,Opus 4 是首个能够在其代理 codename goose 中提高代码质量(在编辑和调试过程中)的模型,同时保持了全面的性能和可靠性。Rakuten 通过一个需要独立运行 7 小时且性能稳定的高要求开源重构项目,验证了 Opus 4 的卓越能力。Cognition 指出,Opus 4 擅长解决其他模型无法应对的复杂挑战,成功处理了先前模型遗漏的关键操作。

Claude Sonnet 4:性能与效率的完美平衡

Claude Sonnet 4 是对其前代产品 Claude Sonnet 3.7 的一次重大升级,在编码和推理方面表现更出色,同时能够更精确地响应用户指令。该模型在 SWE-bench 上取得了 72.7% 的优秀成绩。GitHub 宣布将采用 Claude Sonnet 4 作为 GitHub Copilot 中新型编码代理的驱动模型。Manus 强调了 Sonnet 4 在遵循复杂指令、清晰推理和生成美观输出方面的改进。iGent 报告称,Sonnet 4 擅长自主进行多功能应用开发,并在问题解决和代码库导航方面有显著提升——将导航错误率从 20% 降低到接近于零。Sourcegraph 认为该模型在软件开发方面展现出巨大的潜力——能够更长时间地保持状态、更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称,Sonnet 4 具有更高的成功率、更精确的代码编辑能力以及在处理复杂任务时更谨慎的工作态度,这使其成为他们的首选模型。

扩展思维与工具使用

Anthropic 还宣布,Claude Opus 4 和 Sonnet 4 现在支持扩展思维与工具使用(beta 版)。这意味着这两款模型可以在扩展思维过程中使用工具,比如网络搜索,从而在推理和工具使用之间进行切换,进而提高响应质量。此外,两款模型还可以并行使用工具,更精确地遵循指令,并且在开发者授予访问本地文件的权限后,能够显著提升记忆能力,提取和保存关键事实,以保持连续性并逐步构建隐性知识。

Claude Code 全面上市

在经过广泛的积极反馈后,Claude Code 现已全面上市,为开发者提供更强大的协作能力。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 实现原生集成,可以直接在文件中显示编辑内容,从而实现无缝的结对编程。

API 功能升级

Anthropic API 发布了四项新功能,使开发者能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、Files API 以及缓存提示的功能(最长可达一小时)。

混合模型与定价

Claude Opus 4 和 Sonnet 4 是混合模型,提供两种模式:近乎即时的响应和用于更深入推理的扩展思维。Pro、Max、Team 和 Enterprise Claude 计划均包含这两款模型和扩展思维功能,Sonnet 4 也可供免费用户使用。这两款模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 的输入/输出价格为每百万 tokens 15 美元/75 美元,Sonnet 4 的价格为每百万 tokens 3 美元/15 美元。

模型性能提升

除了扩展思维与工具使用、并行工具执行以及记忆能力改进之外,Anthropic 还显著降低了模型使用捷径或漏洞来完成任务的行为。在特别容易出现捷径和漏洞的代理任务中,这两款模型发生此类行为的可能性比 Sonnet 3.7 降低了 65%。

Claude Opus 4 在记忆能力方面也大大优于所有先前的模型。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“记忆文件”来存储关键信息。这有助于提升长期任务感知能力、连贯性以及代理任务的性能——例如,Opus 4 在玩 Pokémon 时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

最后,Anthropic 为 Claude 4 模型引入了思维摘要,使用较小的模型来浓缩冗长的思考过程。这种摘要仅在 5% 的情况下需要——大多数思考过程都足够短,可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门,以获取对我们新的开发者模式的完全访问权限。

Claude Code 的强大功能

Claude Code 现已全面上市,它将 Claude 的强大功能带到您的更多开发工作流程中——在终端、您最喜欢的 IDE 中,以及在 Claude Code SDK 的后台运行。

适用于 VS Code 和 JetBrains 的新 beta 扩展将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑会以内联方式显示在您的文件中,从而简化了在熟悉的编辑器界面中的审查和跟踪。只需在您的 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心代理来构建您自己的代理和应用程序。Anthropic 还发布了一个使用 SDK 可以实现的功能示例:GitHub 上的 Claude Code(目前为 beta 版)。在 PR 上标记 Claude Code 以响应审查者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。

总结

Anthropic 推出的 Claude Opus 4 和 Sonnet 4 代表了 AI 技术的显著进步。这些模型在编码、推理和代理任务方面的卓越性能,为各行各业的开发者和企业提供了强大的工具,助力他们构建更智能、更高效的应用程序和解决方案。随着 Claude Code 的全面上市和 API 功能的不断升级,Anthropic 将继续引领 AI 创新的浪潮,为人类创造更美好的未来。

Bar chart comparison between Claude and other LLMs on software engineering tasks