Claude 4发布：Opus 4领跑编码，AI代理迎来新纪元

在快速发展的人工智能（AI）领域，Anthropic公司于2025年5月22日宣布推出其最新一代的Claude模型：Claude Opus 4和Claude Sonnet 4。这两款模型不仅在编码、高级推理和AI代理方面树立了新的标杆，还预示着AI技术在各行各业应用的巨大潜力。

Illustration of Claude juggling several tasks in parallel

Claude Opus 4：世界领先的编码模型

Claude Opus 4被誉为目前全球最佳的编码模型，它在复杂、长期运行的任务和代理工作流程中表现出卓越的性能。这款模型能够持续高效地完成需要专注投入和数千个步骤的任务，并且可以连续工作数小时，这显著超越了所有Sonnet模型，极大地扩展了AI代理的应用范围。

具体来说，Claude Opus 4在SWE-bench（72.5%）和Terminal-bench（43.2%）等基准测试中均名列前茅，充分证明了其在编码和复杂问题解决方面的卓越能力。

包括Cursor、Replit、Block、Rakuten和Cognition在内的多家公司对Claude Opus 4的强大功能表示认可：

Cursor认为Claude Opus 4是编码领域的最新技术，并在理解复杂代码库方面实现了飞跃。
Replit报告称，该模型在跨多个文件进行复杂更改时，精度得到了显著提高，并取得了显著进展。
Block表示，Claude Opus 4是首个在其代理codename goose中提高代码质量，同时保持完整性能和可靠性的模型。
Rakuten通过一项要求苛刻的开源重构验证了其功能，该重构独立运行了7个小时，并保持了持续的性能。
Cognition指出，Opus 4擅长解决其他模型无法解决的复杂挑战，成功处理了先前模型遗漏的关键操作。

Claude Sonnet 4：性能与效率的完美结合

Claude Sonnet 4是Claude Sonnet 3.7的重大升级，在编码和推理方面均有卓越表现，同时能够更精确地响应指令。尽管在大多数领域无法与Opus 4相媲美，但Sonnet 4在性能和实用性之间实现了最佳平衡。在SWE-bench上，Sonnet 4获得了72.7%的优异成绩。

GitHub计划将Claude Sonnet 4作为其GitHub Copilot中新编码代理的驱动模型。Manus强调了Sonnet 4在遵循复杂指令、清晰推理和美学输出方面的改进。iGent报告称，Sonnet 4擅长自主多功能应用程序开发，并大幅改进了问题解决和代码库导航能力，从而将导航错误从20%降低到接近于零。Sourcegraph表示，该模型在软件开发方面显示出巨大的潜力，能够更长时间地保持正轨，更深入地理解问题，并提供更优雅的代码质量。Augment Code报告称，Sonnet 4具有更高的成功率、更精准的代码编辑能力和更认真地完成复杂任务的能力，使其成为其首选模型。

模型改进：超越性能的提升

除了扩展的工具使用思维、并行工具执行和内存改进外，Claude 4模型还显著减少了模型使用快捷方式或漏洞来完成任务的行为。与Sonnet 3.7相比，这两种模型在此类行为上的可能性降低了65%。

Claude Opus 4在记忆能力方面也大大优于所有以前的模型。当开发人员构建提供Claude本地文件访问权限的应用程序时，Opus 4擅长创建和维护“记忆文件”以存储关键信息。这可以更好地实现长期任务感知、连贯性和代理任务的性能，例如Opus 4在玩Pokémon时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

此外，Anthropic还为Claude 4模型引入了思维总结功能，该功能使用较小的模型来压缩冗长的思维过程。只有大约5%的时间需要进行这种总结，因为大多数思维过程都足够短，可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门，以获取我们新的开发者模式的完全访问权限。

Claude Code：将Claude的力量带到开发工作流程中

Claude Code现已全面上市，它将Claude的强大功能带到您的更多开发工作流程中——在终端、您最喜欢的IDE中，并在后台与Claude Code SDK一起运行。

用于VS Code和JetBrains的新beta扩展将Claude Code直接集成到您的IDE中。Claude建议的编辑会以内联方式显示在您的文件中，从而简化了熟悉编辑器界面内的审查和跟踪。只需在您的IDE终端中运行Claude Code即可安装。

除了IDE之外，Anthropic还发布了一个可扩展的Claude Code SDK，因此您可以使用与Claude Code相同的核心代理来构建自己的代理和应用程序。Anthropic还发布了一个使用SDK可以实现的示例：GitHub上的Claude Code，现在是beta版。在PR上标记Claude Code以响应审阅者的反馈、修复CI错误或修改代码。要安装，请从Claude Code中运行/install-github-app。

新API功能：构建更强大的AI代理

Anthropic还在Anthropic API上发布了四种新功能，使开发人员能够构建更强大的AI代理：代码执行工具、MCP连接器、Files API以及缓存提示长达一小时的能力。

Claude 4的混合模式与定价

Claude Opus 4和Sonnet 4是混合模型，提供两种模式：近乎即时的响应和用于更深入推理的扩展思维。Pro、Max、Team和Enterprise Claude计划包括这两种模型和扩展思维，Sonnet 4也可供免费用户使用。这两种模型都可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用。定价与以前的Opus和Sonnet模型保持一致：Opus 4为每百万个token 15/75美元（输入/输出），Sonnet 4为3/15美元。

结论与展望

Anthropic公司推出的Claude Opus 4和Sonnet 4模型，代表着AI技术在编码、推理和代理应用方面取得了显著进展。这些模型不仅提高了性能和效率，还通过减少不当行为和改进记忆能力，增强了AI的可靠性和安全性。随着Claude Code的全面上市和新API功能的发布，开发人员将能够构建更强大的AI代理，并将其集成到各种开发工作流程中。这些创新将推动AI技术在各个领域的应用，为企业和个人带来更多价值。

随着AI技术的不断发展，我们有理由相信，未来的AI将更加智能、可靠和安全，为人类社会的发展做出更大的贡献。

Bar chart comparison between Claude and other LLMs on software engineering tasks