Claude 4:AI编码与推理的新纪元,Opus 4与Sonnet 4引领未来智能

1

在人工智能领域,Anthropic 公司于 2025 年 5 月 22 日隆重推出了其最新一代的 Claude 模型:Claude Opus 4 和 Claude Sonnet 4。这两款模型不仅在编码、高级推理方面树立了新的行业标杆,更预示着 AI 智能代理时代的到来。本文将深入剖析这两款模型的卓越性能、全新功能以及它们对未来 AI 应用的潜在影响。

Claude Opus 4:重新定义编码的极限

Claude Opus 4 被誉为目前全球顶尖的编码模型。它不仅能胜任复杂的、长时间运行的任务,还能在智能代理工作流程中保持卓越的性能。这款模型在 SWE-bench 和 Terminal-bench 这两个业界公认的基准测试中均取得了领先地位,充分证明了其在软件工程领域的强大实力。具体来说,Claude Opus 4 在 SWE-bench 上的得分高达 72.5%,在 Terminal-bench 上的得分也达到了 43.2%。

Illustration of Claude juggling several tasks in parallel

多家知名企业对 Claude Opus 4 的卓越性能给予了高度评价。Cursor 称其为“最先进的编码模型”,并认为它在理解复杂代码库方面实现了质的飞跃。Replit 则表示,Opus 4 在处理跨多个文件的复杂变更时,展现出了更高的精确性和显著的进步。Block 公司更是称赞 Opus 4 是首个能够在代码编辑和调试过程中提高代码质量的模型,同时还能保持其智能代理(代号为“goose”)的完整性能和可靠性。Rakuten 通过一项长达 7 小时的开源重构测试验证了 Opus 4 的卓越性能。Cognition 指出,Opus 4 擅长解决其他模型无法处理的复杂挑战,能够成功执行之前的模型会遗漏的关键操作。

Claude Sonnet 4:性能与效率的完美结合

Claude Sonnet 4 是对 Claude Sonnet 3.7 的一次重大升级。它不仅在编码和推理方面表现出色,还能更精确地响应用户的指令。尽管在大多数领域,Sonnet 4 的性能无法与 Opus 4 相提并论,但它在能力和实用性之间实现了最佳的平衡。在 SWE-bench 基准测试中,Sonnet 4 的得分高达 72.7%,充分展示了其在编码方面的强大实力。

GitHub 宣布,Claude Sonnet 4 在智能代理场景中表现出色,并将作为其 GitHub Copilot 中新型编码代理的驱动模型。Manus 强调了 Sonnet 4 在遵循复杂指令、清晰推理和生成美观输出方面的改进。iGent 报告称,Sonnet 4 擅长自主进行多功能应用开发,并能显著提升问题解决能力和代码库导航能力,将导航错误率从 20% 降低到接近于零。Sourcegraph 认为,Sonnet 4 有望成为软件开发领域的一次重大飞跃——它能够更长时间地保持专注,更深入地理解问题,并提供更优雅的代码。Augment Code 则表示,Sonnet 4 具有更高的成功率,能够进行更精准的代码编辑,并能更谨慎地完成复杂任务,使其成为其首选模型。

全新功能:扩展思维、并行工具使用与记忆能力提升

除了卓越的性能之外,Claude Opus 4 和 Sonnet 4 还引入了一系列创新功能,进一步提升了它们在实际应用中的价值:

  • 扩展思维与工具使用(beta 版):这两款模型都可以在扩展思维过程中使用工具,例如网络搜索,从而在推理和工具使用之间进行切换,以改进响应。
  • 全新模型能力:这两款模型都支持并行使用工具,能够更精确地遵循指令。此外,当开发者授予它们访问本地文件的权限时,它们还能展现出显著的记忆能力提升,能够提取并保存关键信息,从而保持连续性并建立隐性知识。
  • Claude Code 正式发布:在经过广泛的积极反馈后,Anthropic 公司正式发布了 Claude Code,进一步拓展了开发者与 Claude 协作的方式。Claude Code 现在支持通过 GitHub Actions 执行后台任务,并能与 VS Code 和 JetBrains 进行原生集成,从而直接在文件中显示编辑内容,实现无缝的结对编程。
  • 全新 API 功能:Anthropic 公司还发布了四个全新的 API 功能,使开发者能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、文件 API 以及缓存提示的能力(最长可达一小时)。

Bar chart comparison between Claude and other LLMs on software engineering tasks

模型改进:减少投机取巧行为,提升记忆能力

除了上述新功能外,Anthropic 公司还对 Claude Opus 4 和 Sonnet 4 进行了多项改进,以提升它们的可靠性和安全性。

首先,Anthropic 公司显著减少了模型使用捷径或漏洞来完成任务的行为。在容易出现投机取巧行为的代理任务中,这两款模型在这方面的可能性比 Sonnet 3.7 降低了 65%。

其次,Claude Opus 4 在记忆能力方面也超越了以往的所有模型。当开发者构建允许 Claude 访问本地文件的应用程序时,Opus 4 能够熟练地创建和维护“记忆文件”来存储关键信息。这有助于提升其在长期任务中的感知能力、连贯性和性能。例如,Opus 4 在玩宝可梦游戏时,会创建一个“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

最后,Anthropic 公司还为 Claude 4 模型引入了思维摘要功能,该功能使用一个较小的模型来浓缩冗长的思考过程。不过,这种摘要功能仅在 5% 的情况下需要使用——大多数思考过程都足够短,可以直接完整显示。需要原始思维链来进行高级提示工程的用户可以联系销售部门,以获取我们新的开发者模式的完整访问权限。

Claude Code:赋能开发者,简化工作流程

Claude Code 现已正式发布,它将 Claude 的强大功能带到了更多开发工作流程中——无论是在终端、您最喜欢的 IDE 中,还是在后台使用 Claude Code SDK 运行。

适用于 VS Code 和 JetBrains 的全新 Beta 版扩展程序将 Claude Code 直接集成到您的 IDE 中。Claude 建议的编辑会以内联方式显示在您的文件中,从而简化了熟悉编辑器界面中的审查和跟踪。只需在 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 公司还发布了一个可扩展的 Claude Code SDK,因此您可以使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。Anthropic 公司还发布了一个使用 SDK 可以实现的功能的示例:GitHub 上的 Claude Code(目前为 Beta 版)。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。

结论

Claude Opus 4 和 Sonnet 4 的发布标志着 AI 技术发展的一个重要里程碑。它们不仅在编码、推理和记忆能力方面取得了显著的进步,还为开发者提供了更强大的工具和更灵活的工作流程。随着 AI 技术的不断发展,我们有理由相信,Claude 4 将在各行各业发挥越来越重要的作用,为人类创造更美好的未来。