在快速发展的人工智能(AI)领域,Anthropic公司于2025年5月22日宣布推出其最新一代的Claude模型:Claude Opus 4和Claude Sonnet 4。这两款模型不仅在编码、高级推理和AI代理方面树立了新的标杆,还预示着AI技术在各行各业应用的巨大潜力。
Claude Opus 4:世界领先的编码模型
Claude Opus 4被誉为目前全球最佳的编码模型,它在复杂、长期运行的任务和代理工作流程中表现出卓越的性能。这款模型能够持续高效地完成需要专注投入和数千个步骤的任务,并且可以连续工作数小时,这显著超越了所有Sonnet模型,极大地扩展了AI代理的应用范围。
具体来说,Claude Opus 4在SWE-bench(72.5%)和Terminal-bench(43.2%)等基准测试中均名列前茅,充分证明了其在编码和复杂问题解决方面的卓越能力。
包括Cursor、Replit、Block、Rakuten和Cognition在内的多家公司对Claude Opus 4的强大功能表示认可:
- Cursor认为Claude Opus 4是编码领域的最新技术,并在理解复杂代码库方面实现了飞跃。
- Replit报告称,该模型在跨多个文件进行复杂更改时,精度得到了显著提高,并取得了显著进展。
- Block表示,Claude Opus 4是首个在其代理codename goose中提高代码质量,同时保持完整性能和可靠性的模型。
- Rakuten通过一项要求苛刻的开源重构验证了其功能,该重构独立运行了7个小时,并保持了持续的性能。
- Cognition指出,Opus 4擅长解决其他模型无法解决的复杂挑战,成功处理了先前模型遗漏的关键操作。
Claude Sonnet 4:性能与效率的完美结合
Claude Sonnet 4是Claude Sonnet 3.7的重大升级,在编码和推理方面均有卓越表现,同时能够更精确地响应指令。尽管在大多数领域无法与Opus 4相媲美,但Sonnet 4在性能和实用性之间实现了最佳平衡。在SWE-bench上,Sonnet 4获得了72.7%的优异成绩。
GitHub计划将Claude Sonnet 4作为其GitHub Copilot中新编码代理的驱动模型。Manus强调了Sonnet 4在遵循复杂指令、清晰推理和美学输出方面的改进。iGent报告称,Sonnet 4擅长自主多功能应用程序开发,并大幅改进了问题解决和代码库导航能力,从而将导航错误从20%降低到接近于零。Sourcegraph表示,该模型在软件开发方面显示出巨大的潜力,能够更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。Augment Code报告称,Sonnet 4具有更高的成功率、更精准的代码编辑能力和更认真地完成复杂任务的能力,使其成为其首选模型。
模型改进:超越性能的提升
除了扩展的工具使用思维、并行工具执行和内存改进外,Claude 4模型还显著减少了模型使用快捷方式或漏洞来完成任务的行为。与Sonnet 3.7相比,这两种模型在此类行为上的可能性降低了65%。
Claude Opus 4在记忆能力方面也大大优于所有以前的模型。当开发人员构建提供Claude本地文件访问权限的应用程序时,Opus 4擅长创建和维护“记忆文件”以存储关键信息。这可以更好地实现长期任务感知、连贯性和代理任务的性能,例如Opus 4在玩Pokémon时创建“导航指南”。
此外,Anthropic还为Claude 4模型引入了思维总结功能,该功能使用较小的模型来压缩冗长的思维过程。只有大约5%的时间需要进行这种总结,因为大多数思维过程都足够短,可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门,以获取我们新的开发者模式的完全访问权限。
Claude Code:将Claude的力量带到开发工作流程中
Claude Code现已全面上市,它将Claude的强大功能带到您的更多开发工作流程中——在终端、您最喜欢的IDE中,并在后台与Claude Code SDK一起运行。
用于VS Code和JetBrains的新beta扩展将Claude Code直接集成到您的IDE中。Claude建议的编辑会以内联方式显示在您的文件中,从而简化了熟悉编辑器界面内的审查和跟踪。只需在您的IDE终端中运行Claude Code即可安装。
除了IDE之外,Anthropic还发布了一个可扩展的Claude Code SDK,因此您可以使用与Claude Code相同的核心代理来构建自己的代理和应用程序。Anthropic还发布了一个使用SDK可以实现的示例:GitHub上的Claude Code,现在是beta版。在PR上标记Claude Code以响应审阅者的反馈、修复CI错误或修改代码。要安装,请从Claude Code中运行/install-github-app。
新API功能:构建更强大的AI代理
Anthropic还在Anthropic API上发布了四种新功能,使开发人员能够构建更强大的AI代理:代码执行工具、MCP连接器、Files API以及缓存提示长达一小时的能力。
Claude 4的混合模式与定价
Claude Opus 4和Sonnet 4是混合模型,提供两种模式:近乎即时的响应和用于更深入推理的扩展思维。Pro、Max、Team和Enterprise Claude计划包括这两种模型和扩展思维,Sonnet 4也可供免费用户使用。这两种模型都可以在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用。定价与以前的Opus和Sonnet模型保持一致:Opus 4为每百万个token 15/75美元(输入/输出),Sonnet 4为3/15美元。
结论与展望
Anthropic公司推出的Claude Opus 4和Sonnet 4模型,代表着AI技术在编码、推理和代理应用方面取得了显著进展。这些模型不仅提高了性能和效率,还通过减少不当行为和改进记忆能力,增强了AI的可靠性和安全性。随着Claude Code的全面上市和新API功能的发布,开发人员将能够构建更强大的AI代理,并将其集成到各种开发工作流程中。这些创新将推动AI技术在各个领域的应用,为企业和个人带来更多价值。
随着AI技术的不断发展,我们有理由相信,未来的AI将更加智能、可靠和安全,为人类社会的发展做出更大的贡献。