Claude 4发布:Opus与Sonnet引领AI编码与推理新纪元

0

在人工智能领域,Anthropic 公司于2025年5月22日发布了新一代的 Claude 模型:Claude Opus 4 和 Claude Sonnet 4。这两款模型在编码、高级推理和AI Agent方面都设立了新的行业标准。本文将深入探讨这两款模型的特性、功能以及它们对未来AI应用的影响。

Claude Opus 4:编码能力的巅峰

Claude Opus 4 被誉为“世界上最好的编码模型”,它在复杂、长期运行的任务和 Agent 工作流程中表现出色。这款模型能够持续高效地完成需要数千个步骤的任务,并且可以连续工作数小时,这大大超越了以往的 Sonnet 模型,并显著扩展了 AI Agent 的应用范围。

Illustration of Claude juggling several tasks in parallel

不仅如此,包括Cursor、Replit、Block、Rakuten和Cognition等公司都对其赞誉有加。Cursor 认为它是编码领域的state-of-the-art,并在复杂代码库理解方面实现了飞跃。Replit 指出,Opus 4 在跨多个文件的复杂更改方面提高了精度。Block 表示,Opus 4 是首个在其 Agent(代号 goose)中提高代码质量的模型,同时保持了完整的性能和可靠性。Rakuten 通过一个需要独立运行 7 小时的高要求开源重构验证了其能力。Cognition 则指出,Opus 4 擅长解决其他模型无法解决的复杂挑战。

Claude Sonnet 4:性能与效率的完美平衡

Claude Sonnet 4 是对 Claude Sonnet 3.7 的重大升级,它在编码和推理方面表现出色,同时能够更精确地响应指令。尽管在大多数领域无法与 Opus 4 相提并论,但 Sonnet 4 在能力和实用性之间实现了最佳平衡。GitHub 计划推出由 Claude Sonnet 4 驱动的新编码 Agent,GitHub Copilot。Manus 强调了其在遵循复杂指令、清晰推理和美学输出方面的改进。iGent 报告称,Sonnet 4 擅长自主多功能应用程序开发,并显著改进了问题解决和代码库导航,将导航错误从 20% 降低到接近于零。Sourcegraph 认为,该模型在软件开发方面显示出了巨大的潜力,能够更长时间地保持在正轨上,更深入地理解问题,并提供更优雅的代码质量。Augment Code 报告称,Sonnet 4 具有更高的成功率、更精准的代码编辑能力以及更认真地完成复杂任务的能力,使其成为他们的首选模型。

Bar chart comparison between Claude and other LLMs on software engineering tasks

模型功能的增强

除了扩展的思维工具使用、并行工具执行和内存改进外,Claude 4 模型还显著减少了模型使用捷径或漏洞来完成任务的行为。在特别容易出现捷径和漏洞的代理任务中,这两个模型的这种行为比 Sonnet 3.7 减少了 65%。

Claude Opus 4 在内存能力方面也大大优于所有以前的模型。当开发人员构建提供 Claude 本地文件访问权限的应用程序时,Opus 4 擅长创建和维护“记忆文件”以存储关键信息。这可以更好地实现长期任务意识、连贯性和代理任务的性能,例如 Opus 4 在玩 Pokémon 时创建“导航指南”。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

此外,Anthropic 还为 Claude 4 模型引入了思维总结功能,该功能使用较小的模型来压缩冗长的思维过程。这种总结仅在约 5% 的时间内需要,因为大多数思维过程都足够短,可以完整显示。需要原始思维链以进行高级提示工程的用户可以联系销售部门,以获取我们新的开发者模式的完全访问权限。

Claude Code:助力开发者工作流程

Claude Code 现已全面上市,它将 Claude 的强大功能引入到更多的开发工作流程中,包括终端、IDE 以及在后台运行的 Claude Code SDK。

用于 VS Code 和 JetBrains 的新 beta 扩展将 Claude Code 直接集成到 IDE 中。Claude 建议的编辑会以内联方式显示在文件中,从而简化了熟悉的编辑器界面中的审查和跟踪。只需在 IDE 终端中运行 Claude Code 即可安装。

除了 IDE 之外,Anthropic 还发布了一个可扩展的 Claude Code SDK,因此可以使用与 Claude Code 相同的核心代理来构建自己的代理和应用程序。此外,Anthropic 还发布了一个 SDK 可能实现的示例:GitHub 上的 Claude Code,目前为 beta 版。在 PR 上标记 Claude Code 以响应审阅者的反馈、修复 CI 错误或修改代码。要安装,请从 Claude Code 中运行 /install-github-app。

总结与展望

Anthropic 推出的 Claude Opus 4 和 Sonnet 4 模型代表了 AI 技术的重大进步,它们在编码、推理和 Agent 任务中的卓越表现为未来的 AI 应用开辟了新的可能性。这些模型不仅能够高效地处理复杂的任务,还能够通过扩展的思维工具使用、并行工具执行和内存改进来提供更智能、更连贯的解决方案。随着 Claude Code 的全面上市,开发者可以更加便捷地将 AI 功能集成到他们的工作流程中,从而加速创新并提高生产力。Anthropic 的这些创新举措无疑将推动 AI 技术的进一步发展,并为各行各业带来深远的影响。

此次发布的两款模型都经过了广泛的测试和评估,旨在最大限度地降低风险并提高安全性,包括实施针对更高级别 AI 安全级别(如 ASL-3)的措施。Anthropic 鼓励开发者们充分利用这些新模型,并在 Claude、Claude Code 或其他平台上开始他们的创新之旅,共同探索 AI 技术的无限可能。Anthropic 同时也欢迎用户提供反馈,以便不断改进和完善这些模型。