Claude Opus 4.5:AI编程与代理领域的革命性突破

1

人工智能领域再次迎来重大突破,Anthropic公司最新发布的Claude Opus 4.5模型在多个关键领域展现出前所未有的能力。这款被描述为"智能、高效且全球最佳"的模型,不仅在编程、代理和计算机使用方面树立了新标杆,更在深度研究、幻灯片和电子表格处理等日常任务上实现了质的飞跃。Opus 4.5的发布不仅是AI系统能力的又一次进步,更是工作方式即将发生深刻变革的前奏。

革命性性能表现

Claude Opus 4.5在真实世界软件工程测试中达到了最先进的水平,其性能表现令人瞩目。特别是在SWE-bench Verified这一业界公认的软件工程基准测试中,Opus 4.5取得了最高分,超越了所有其他前沿模型。

Claude Opus 4.5在SWE-bench测试中表现优异

这一成就意义重大,因为它直接反映了模型在实际软件开发场景中的能力。从调试复杂的多系统bug到优化现有代码,Opus 4.5展现出了前所未有的问题解决能力。许多测试者反馈,几周前Sonnet 4.5几乎无法完成的任务,现在使用Opus 4.5变得轻而易举。总体而言,测试者们一致认为,Opus 4.5真正"理解"了复杂任务的本质。

多领域全面突破

软件工程并非Opus 4.5唯一取得显著进步的领域。该模型在多个维度上展现出超越前代产品的能力,包括视觉理解、推理和数学技能等。在多个专业领域,Opus 4.5已达到最先进水平:

  • 多语言编程:在SWE-bench Multilingual测试中,Opus 4.5在8种编程语言中的7种中表现最佳,展现了其强大的跨语言编程能力。

  • 问题解决:在Aider Polyglot测试中,Opus 4.5比Sonnet 4.5提升了10.6%的得分,能够轻松解决具有挑战性的编程问题。

  • 代理搜索:在BrowseComp-Plus测试中,Opus 4.5在前沿代理搜索方面取得了显著进步。

  • 长期任务执行:在Vending-Bench测试中,Opus 4.5比Sonnet 4.5高出29%,展现了在长期任务中保持专注的能力。

创新问题解决能力

Opus 4.5的一个突出特点是它能够以创新方式解决复杂问题。在τ2-bench测试中,模型被要求扮演航空服务代理,帮助一位遇到困难的客户。测试预期模型会拒绝修改经济舱预订,因为航空公司不允许更改此类机票。

然而,Opus 4.5找到了一个既巧妙又符合规定的解决方案:先将舱位升级,然后再修改航班。

让我思考一下政策中我有哪些选择:

  1. 修改航班 - 经济舱不能修改,这一点政策中很明确。
  2. 更改舱位 - 等一下,让我检查这个选项!政策说:"在其他情况下,所有预订,包括经济舱,都可以在不更改航班的情况下更改舱位。"

但他想要更改航班,而不只是舱位。不过,如果我们:

  • 先更改舱位(这对经济舱是允许的),然后
  • 更改航班(这对非经济舱是允许的)

这样会花费更多钱,但这是政策内的合法路径!

虽然从技术角度看,这一解决方案被标记为失败,因为它超出了测试预期,但这种创造性问题解决能力恰恰是我们从测试者和客户那里听到的Opus 4.5的核心优势。这种"跳出框架思考