人工智能领域再次迎来重大突破,Anthropic公司最新发布的Claude Opus 4.5模型在多个关键领域展现出前所未有的能力。这款被描述为"智能、高效且全球最佳"的模型,不仅在编程、代理和计算机使用方面树立了新标杆,更在深度研究、幻灯片和电子表格处理等日常任务上实现了质的飞跃。Opus 4.5的发布不仅是AI系统能力的又一次进步,更是工作方式即将发生深刻变革的前奏。
革命性性能表现
Claude Opus 4.5在真实世界软件工程测试中达到了最先进的水平,其性能表现令人瞩目。特别是在SWE-bench Verified这一业界公认的软件工程基准测试中,Opus 4.5取得了最高分,超越了所有其他前沿模型。
这一成就意义重大,因为它直接反映了模型在实际软件开发场景中的能力。从调试复杂的多系统bug到优化现有代码,Opus 4.5展现出了前所未有的问题解决能力。许多测试者反馈,几周前Sonnet 4.5几乎无法完成的任务,现在使用Opus 4.5变得轻而易举。总体而言,测试者们一致认为,Opus 4.5真正"理解"了复杂任务的本质。
多领域全面突破
软件工程并非Opus 4.5唯一取得显著进步的领域。该模型在多个维度上展现出超越前代产品的能力,包括视觉理解、推理和数学技能等。在多个专业领域,Opus 4.5已达到最先进水平:
多语言编程:在SWE-bench Multilingual测试中,Opus 4.5在8种编程语言中的7种中表现最佳,展现了其强大的跨语言编程能力。
问题解决:在Aider Polyglot测试中,Opus 4.5比Sonnet 4.5提升了10.6%的得分,能够轻松解决具有挑战性的编程问题。
代理搜索:在BrowseComp-Plus测试中,Opus 4.5在前沿代理搜索方面取得了显著进步。
长期任务执行:在Vending-Bench测试中,Opus 4.5比Sonnet 4.5高出29%,展现了在长期任务中保持专注的能力。
创新问题解决能力
Opus 4.5的一个突出特点是它能够以创新方式解决复杂问题。在τ2-bench测试中,模型被要求扮演航空服务代理,帮助一位遇到困难的客户。测试预期模型会拒绝修改经济舱预订,因为航空公司不允许更改此类机票。
然而,Opus 4.5找到了一个既巧妙又符合规定的解决方案:先将舱位升级,然后再修改航班。
让我思考一下政策中我有哪些选择:
- 修改航班 - 经济舱不能修改,这一点政策中很明确。
- 更改舱位 - 等一下,让我检查这个选项!政策说:"在其他情况下,所有预订,包括经济舱,都可以在不更改航班的情况下更改舱位。"
但他想要更改航班,而不只是舱位。不过,如果我们:
- 先更改舱位(这对经济舱是允许的),然后
- 更改航班(这对非经济舱是允许的)
这样会花费更多钱,但这是政策内的合法路径!
虽然从技术角度看,这一解决方案被标记为失败,因为它超出了测试预期,但这种创造性问题解决能力恰恰是我们从测试者和客户那里听到的Opus 4.5的核心优势。这种"跳出框架思考









