Anthropic发布Opus 4.5:AI模型性能与效率的双重突破

1

在人工智能技术快速发展的今天,各大科技公司竞相推出更强大的AI模型。2025年11月,Anthropic公司发布了其旗舰前沿模型Opus 4.5,这一新版本在性能、效率和用户体验方面实现了显著提升,为AI领域带来了新的突破。

长对话能力:解决用户痛点

对于大多数用户而言,Opus 4.5最引人注目的改进在于长对话能力的提升。在之前的Claude版本中,用户经常遇到对话突然中断的问题,即使他们的会话和每周使用预算仍有剩余空间。这是因为Claude遇到了硬性上下文窗口限制(200,000 tokens),而一些大型语言模型的实现会在对话超过窗口最大长度时简单地修剪较早的消息,Claude则选择直接结束对话,而不是让用户体验到模型开始遗忘内容的不连贯对话。

现在,Opus 4.5通过后台处理过程,能够总结对话早期部分的关键点,尝试丢弃其认为是多余的内容,同时保留重要信息。这一改进不仅适用于Opus 4.5,也适用于应用中所有当前的Claude模型。开发者通过Anthropic的API调用时,也可以利用相同的原理进行上下文管理和上下文压缩。

性能表现:超越竞争对手

在性能方面,Opus 4.5取得了令人瞩目的成就。它是首个在SWE-Bench Verified基准测试中准确率超过80%的模型,具体得分为80.9%,略微超越了OpenAI最近发布的GPT-5.1-Codex-Max(77.9%)和Google的Gemini 3 Pro(76.2%)。该模型在代理编程和代理工具使用基准测试中表现尤为出色,但在视觉推理(MMMU)方面仍略逊于GPT-5.1。

AI性能对比图表

Anthropic还声称,Opus 4.5比之前的Claude模型以及GPT-5.1和Gemini 3 Pro等竞争模型更不容易受到提示注入攻击。尽管如此,这些模型在安全性方面仍没有完美的表现。

效率提升:更少的token,更好的效果

虽然基准测试中的性能改进值得注意,但Opus 4.5最有意义的改进 arguably 是它在token使用上的显著效率提升。Anthropic的博客文章提供了具体例子:

设置为中等努力水平时,Opus 4.5匹配了Sonnet 4.5在SWE-bench Verified上的最佳得分,但使用的输出token减少了76%。在其最高努力水平下,Opus 4.5比Sonnet 4.5性能高出4.3个百分点——同时使用的token减少了48%。

AI效率对比图

这种效率提升意味着用户可以用更低的成本获得相同甚至更好的AI服务,对于需要大量使用AI模型的企业和个人开发者来说,这将带来显著的成本节约。

新功能与更新

Opus 4.5的发布伴随着面向开发者和用户的其他新功能:

  1. 新的'努力'参数:开发者平台现在包括一个新的'努力'参数,允许开发者更精确地调整他们想要在效果和token使用之间平衡的程度。

  2. Claude Code扩展:Claude Code现在可以在桌面Claude应用中使用。此前,它可通过命令行、IDE扩展和网络访问,但原生桌面应用中并不提供。现在Claude桌面界面在传统聊天体验和Claude Code体验之间采用了标签页设计。

  3. API定价大幅下调:对于Opus 4.5,API成本现在是每百万token输入5美元/输出25美元,从之前的15美元/75美元大幅下降。

行业影响与未来展望

Opus 4.5的发布对AI行业产生了深远影响。首先,它展示了AI模型在保持高性能的同时提高效率的可能性,这可能会推动整个行业向更经济、更可持续的方向发展。其次,大幅降低的API成本可能会使更多开发者和企业能够负担得起使用前沿AI模型,从而加速AI技术在各领域的应用创新。

从长远来看,Opus 4.5所代表的技术进步——更长的上下文窗口、更高的编程能力、更好的安全性以及更高的效率——可能会改变AI开发者和用户与AI系统交互的方式。随着这些技术的成熟,我们可以期待看到更多创新的AI应用和服务涌现,进一步推动各行各业的数字化转型。

结论

Anthropic的Opus 4.5模型代表了AI技术发展的重要里程碑。通过解决长对话问题、提高性能、增强安全性并显著降低成本,Opus 4.5不仅为现有用户提供了更好的体验,也为AI技术的广泛应用铺平了道路。随着AI模型变得越来越强大、高效和经济,我们可以预见一个更加智能化、自动化的未来正在加速到来。