Claude 4发布:Opus 4引领AI编码新纪元,Sonnet 4实现性能与效率的完美平衡

1

在人工智能领域,日新月异的技术革新不断涌现,其中,Anthropic公司于2025年5月22日发布的Claude 4模型,无疑是这一浪潮中的一颗耀眼明星。此次发布不仅推出了Claude Opus 4和Claude Sonnet 4两款全新模型,更在模型能力、API功能以及开发者工具等方面实现了全面升级,为AI应用开辟了新的可能性。

Illustration of Claude juggling several tasks in parallel

Claude Opus 4:性能巅峰,代码王者

Claude Opus 4被誉为“世界最佳编码模型”,其在复杂、长期任务以及代理工作流中的卓越表现,使其成为当之无愧的领导者。该模型在SWE-bench和Terminal-bench等基准测试中均名列前茅,充分证明了其在软件工程领域的强大实力。众多行业领导者对Claude Opus 4的性能赞不绝口。

  • Cursor:称其为“编码领域的最新技术”,并在复杂代码库理解方面实现了飞跃。
  • Replit:报告称其在跨多个文件的复杂更改方面提高了精度并实现了显著进步。
  • Block:认为它是第一个在其代理_codename goose_中提高编辑和调试期间代码质量,同时保持完全性能和可靠性的模型。
  • Rakuten:通过一项要求苛刻的开源重构验证了其能力,该重构独立运行了7个小时,并保持了持续的性能。
  • Cognition:指出Opus 4擅长解决其他模型无法解决的复杂挑战,成功处理了以前模型遗漏的关键操作。

这些评价充分证明了Claude Opus 4在实际应用中的价值,它不仅能够胜任复杂的编码任务,还能在长时间运行的任务中保持稳定高效,为开发人员提供了强大的支持。

Claude Sonnet 4:性能与效率的完美平衡

Claude Sonnet 4作为Claude Sonnet 3.7的升级版,在编码方面表现出色,在SWE-bench上的得分高达72.7%。该模型在性能和效率之间实现了良好的平衡,适用于各种内部和外部用例,并具有增强的可操纵性,从而可以更好地控制实现。虽然在大多数领域不如Opus 4,但它提供了能力和实用性的最佳结合。

  • GitHub:表示Claude Sonnet 4在代理场景中表现出色,并将引入它作为GitHub Copilot中新的编码代理的动力。
  • Manus:强调了其在遵循复杂指令、清晰推理和美学输出方面的改进。
  • iGent:报告称Sonnet 4擅长自主多功能应用程序开发,并且在问题解决和代码库导航方面也得到了显着改善——将导航错误从20%降低到接近零。
  • Sourcegraph:表示该模型有望成为软件开发方面的重大飞跃——保持更长的运行时间,更深入地理解问题,并提供更优雅的代码质量。
  • Augment Code:报告称更高的成功率,更精细的代码编辑以及更认真地完成复杂任务,使其成为其主要模型的首选。

Claude Sonnet 4的优势在于其能够以更低的成本提供出色的性能,使其成为日常使用场景的理想选择。无论是内部项目还是对外服务,Sonnet 4都能为用户带来卓越的体验。

模型能力扩展:工具使用与记忆增强

除了性能提升之外,Claude 4还在模型能力方面进行了多项创新,进一步拓展了其应用范围。

  • 扩展思维与工具使用:Claude Opus 4和Sonnet 4均支持工具使用,允许模型在推理过程中调用外部工具,如网页搜索,从而提高响应的准确性和全面性。
  • 并行工具执行:两款模型均支持并行执行多个工具,从而提高任务处理的效率。
  • 记忆能力提升:通过访问本地文件,Claude模型能够提取并保存关键信息,建立长期记忆,从而在后续任务中保持连贯性并积累经验。

A visual note in Claude's memories that depicts a navigation guide for the game Pokemon Red.

Claude Code:赋能开发者,简化工作流程

Claude Code的正式发布,标志着Anthropic公司在开发者工具领域的又一重要进展。Claude Code可以将Claude的能力无缝集成到开发者的工作流程中,从而提高开发效率和代码质量。

  • IDE集成:通过VS Code和JetBrains的Beta扩展,开发者可以直接在IDE中使用Claude Code,查看和跟踪Claude提出的修改建议。
  • Claude Code SDK:开发者可以使用Claude Code SDK构建自己的代理和应用程序,从而充分利用Claude的强大功能。
  • GitHub集成:通过GitHub应用程序,开发者可以在PR中标记Claude Code,从而自动响应审阅反馈、修复CI错误或修改代码。

其他改进

除了上述主要功能外,Claude 4还进行了一些其他改进,以提高模型的整体性能和安全性。

  • 减少捷径和漏洞:与Sonnet 3.7相比,Claude 4模型在使用快捷方式或漏洞完成任务的可能性降低了65%。
  • 思维总结:Claude 4模型可以使用较小的模型来压缩冗长的思维过程。仅在约5%的时间内需要此总结——大多数思维过程都足够短以完整显示。需要用于高级提示工程的原始思维链的用户可以联系销售人员以获取我们新的开发者模式的完全访问权限。

总结与展望

Claude Opus 4和Sonnet 4的发布,代表着人工智能技术发展的新高度。这些模型不仅在性能上取得了显著提升,更在模型能力、API功能以及开发者工具等方面进行了全面创新,为AI应用开辟了广阔的前景。随着人工智能技术的不断发展,我们有理由相信,Claude 4将会在各个领域发挥越来越重要的作用,为人类社会带来更多的福祉。

Bar chart comparison between Claude and other LLMs on software engineering tasks

Anthropic公司表示,Claude 4的推出经过了广泛的测试和评估,以最大程度地降低风险并最大程度地提高安全性,包括实施针对更高级别AI安全级别(如ASL-3)的措施。Anthropic公司期待看到用户能够创造出什么,并鼓励用户通过各种渠道提供反馈,以帮助其改进。

附录

性能基准数据来源

性能基准报告

Claude Opus 4和Sonnet 4是混合推理模型。本博客文章中报告的基准测试显示了使用或不使用扩展思维所获得的最高分数。我们在下面注明了每个结果是否使用了扩展思维:

  • 无扩展思维:SWE-bench Verified,Terminal-bench
  • 扩展思维(最多64K tokens):
    • TAU-bench(未报告无扩展思维的结果)
    • GPQA Diamond(无扩展思维:Opus 4得分74.9%,Sonnet 4为70.0%)
    • MMMLU(无扩展思维:Opus 4得分87.4%,Sonnet 4为85.4%)
    • MMMU(无扩展思维:Opus 4得分73.7%,Sonnet 4为72.6%)
    • AIME(无扩展思维:Opus 4得分33.9%,Sonnet 4为33.1%)

TAU-bench方法

通过向航空公司和零售代理政策添加提示附录来实现分数,该附录指示Claude在利用扩展思维进行工具使用时更好地利用其推理能力。鼓励该模型在解决问题的过程中写下自己的想法,这与我们通常的思维模式不同,在多回合轨迹中最好地利用其推理能力。为了适应Claude通过利用更多思维而产生的其他步骤,最大步骤数(由模型完成计数)从30增加到100(大多数轨迹在30个步骤以下完成,只有一个轨迹达到50个步骤以上)。

SWE-bench方法

对于Claude 4系列模型,我们继续使用相同的简单支架,该支架仅为模型配备了我们先前版本中描述的两种工具此处——一个bash工具,以及一个通过字符串替换操作的文件编辑工具。我们不再包括Claude 3.7 Sonnet使用的第三个“计划工具”。在所有Claude 4模型上,我们报告了完整500个问题的分数。OpenAI模型的分数报告为477个问题子集

对于我们的“高计算”数字,我们采用额外的复杂性和并行测试时间计算,如下所示:

  • 我们对多个并行尝试进行采样。
  • 我们放弃破坏存储库中可见回归测试的补丁,类似于Agentless(Xia et al. 2024)采用的拒绝抽样方法;请注意,未使用任何隐藏的测试信息。
  • 然后,我们使用内部评分模型从剩余的尝试中选择最佳候选者。

这导致Opus 4和Sonnet 4的分数分别为79.4%和80.2%。