Anthropic发布Opus 4.5:AI模型长对话与性能的双重突破

0

人工智能领域再次迎来重大突破,Anthropic公司今日发布了其旗舰前沿模型Opus 4.5,这一新版本不仅在编程性能上有所提升,还通过多项用户体验改进,使其与OpenAI最新前沿模型的竞争力显著增强。对于大多数用户而言,最显著的变化是Claude在消费级应用体验(网页、移动端和桌面端)中将不太容易因对话过长而突然中断。

长对话难题的解决方案

长期以来,大语言模型在处理长对话时面临一个普遍挑战:当对话超过上下文窗口限制时,模型要么开始截断早期消息,要么直接终止对话。Anthropic选择了一种更为优雅的解决方案。

过去,用户在会话和每周使用预算仍有余量的情况下仍会遇到突然结束的情况,这是因为他们碰到了硬性的上下文窗口限制(200,000 tokens)。而其他一些大型语言模型实现会在对话超过窗口最大长度时开始截断早期消息,Claude则直接终止对话,而不是让用户体验模型因消息新旧程度而逐渐遗忘内容的不连贯对话。

现在,Claude将在后台处理过程中总结对话早期部分的关键点,尝试丢弃其认为非必要的内容,同时保留重要信息。这一改进不仅适用于Opus 4.5,也适用于应用中任何当前的Claude模型。通过API调用Anthropic服务的开发者也可以通过上下文管理和上下文压缩利用相同的原则。

性能基准测试表现

Opus 4.5在多项基准测试中展现了卓越的性能。它是首个在SWE-Bench Verified基准测试中准确率超过80%的模型,达到了80.9%,略微超越了OpenAI最近发布的GPT-5.1-Codex-Max(77.9%)和Google的Gemini 3 Pro(76.2%)。

AI性能对比图表

该模型在代理编程和代理工具使用基准测试中表现尤为出色,但在视觉推理(MMMU)方面仍落后于GPT-5.1。Anthropic还声称,Opus 4.5比之前的Claude模型以及GPT-5.1和Gemini 3 Pro等竞争模型更不容易受到提示注入攻击的影响。尽管如此,这些模型在该方面都尚未达到完美表现。

效率提升与成本降低

尽管基准测试性能的提升值得注意,但Opus 4.5最有意义的改进可能是它在token使用效率上的显著提升。Anthropic的博客文章提供了具体例子:

设置为中等努力水平时,Opus 4.5在SWE-bench Verified上达到了与Sonnet 4.5最佳分数相同的水平,但使用了76%的更少输出token。在其最高努力水平下,Opus 4.5比Sonnet 4.5性能高出4.3个百分点——同时使用48%的更少token。

这种效率提升意味着用户可以用相同的预算获得更多的输出,或者以更低的成本获得相同质量的输出,这对于依赖AI服务的开发者和企业来说是一个重大利好。

开发者平台更新

Opus 4.5的发布伴随着面向开发者和用户的其他新功能。例如,开发者平台现在包括一个新的"努力"参数,允许开发者更精确地调整他们希望在功效和token使用之间达到的平衡。

这一参数的引入为开发者提供了前所未有的灵活性,使他们可以根据具体应用场景调整模型的输出质量和效率之间的权衡。对于需要高质量输出的场景,开发者可以选择更高的努力水平;而对于需要快速响应或成本敏感的应用,则可以选择较低的努力水平。

Claude Code的全面集成

Claude Code现已集成到桌面Claude应用中。此前,它可通过命令行、IDE扩展和网页使用——只是没有原生桌面应用。现在,Claude桌面界面在传统聊天体验和Claude Code体验之间采用了标签页设计。

这一集成大大提升了开发者的工作流程效率,使他们可以在一个统一的环境中无缝切换对话式编程和传统代码编辑功能。Claude Code的加入代表了AI辅助编程工具向更自然、更直观的用户体验迈进的重要一步。

API定价的重大调整

最后(对一些人来说也是最重要的),Opus 4.5的API发生了重大定价变化。现在的成本为每百万输入token 5美元/输出token 25美元,从之前的15美元/75美元大幅下降。

这一价格调整将使更多开发者和企业能够负担得起使用Anthropic最先进的模型,从而加速AI技术的创新和应用。价格的降低也反映了AI模型训练和推理成本的持续下降,以及Anthropic希望通过规模效应进一步降低成本的商业策略。

行业影响与未来展望

Opus 4.5的发布标志着AI模型发展的重要转折点。它不仅展示了在性能上的持续进步,更强调了效率、成本效益和用户体验的重要性。这一趋势预示着AI行业正从单纯的追求模型规模和性能,转向更加注重实用性和可扩展性的方向发展。

随着越来越多的企业开始将AI技术整合到其核心业务流程中,模型的效率、成本和易用性将成为决定市场地位的关键因素。Opus 4.5在多个维度上的平衡表现,使其在这一新兴的竞争格局中占据了有利位置。

未来,我们可以预期AI模型将继续在效率、安全性和功能性方面取得进步,同时价格将进一步下降,使AI技术变得更加普及和民主化。Anthropic通过Opus 4.5展示的创新能力,预示着AI技术正朝着更加实用、高效和可持续的方向发展。