Anthropic发布Opus 4.5:AI模型性能与效率的双重突破

0

在人工智能领域持续竞争的今天,Anthropic公司宣布推出其旗舰前沿模型Opus 4.5,这一新版本不仅在性能上有所提升,更在效率和用户体验方面实现了显著突破。Opus 4.5的发布标志着大语言模型(LLM)在实用性和经济性方面迈出了重要一步,同时也回应了用户对Claude长期存在的一些批评。

对话体验的革命性改进

对于大多数用户而言,Opus 4.5最显著的变化在于对话体验的改善。在消费者应用(网页、移动端和桌面版)中,Claude不再容易因对话过长而突然中断。这一改进不仅适用于Opus 4.5,也适用于应用中所有当前的Claude模型。

过去,用户经常遇到对话突然结束的情况——尽管他们的会话和每周使用预算仍有剩余空间。这是因为用户遇到了硬性的上下文窗口限制(200,000个token)。与其他一些大型语言模型实现不同——这些模型会在对话超过窗口最大长度时开始修剪较早的消息——Claude选择直接结束对话,而不是让用户经历模型因消息新旧程度不同而开始遗忘事物的、越来越不连贯的对话体验。

现在,Claude将通过后台流程总结对话早期部分的关键点,尝试丢弃其认为不重要的内容,同时保留重要信息。这一创新性解决方案不仅延长了有效对话长度,还保持了对话的连贯性和质量。

对于调用Anthropic API的开发者来说,他们可以通过上下文管理和上下文压缩利用相同的原则。这一功能为构建更复杂、更持久的AI应用提供了可能。

性能基准测试的领先表现

Opus 4.5在性能基准测试中表现出色,成为第一个在SWE-Bench Verified基准测试中超过80%准确率阈值的模型,具体得分为80.9%。这一成绩 narrowly 超越了OpenAI最近发布的GPT-5.1-Codex-Max(77.9%)和Google的Gemini 3 Pro(76.2%)。

该模型在智能体编码和智能体工具使用基准测试中表现尤为突出,但在视觉推理(MMMU)方面仍落后于GPT-5.1。这表明Opus 4.5在特定领域具有优势,但在某些跨模态任务上仍有提升空间。

安全性的显著提升

Anthropic还声称,Opus 4.5比之前的Claude模型以及GPT-5.1和Gemini 3 Pro等竞争模型更不容易受到提示注入(prompt injection)攻击。尽管如此,这些模型在前沿安全性方面仍没有完美的表现。这一改进对于企业用户和需要处理敏感数据的应用场景尤为重要。

效率的革命性突破

尽管基准测试性能的提升值得注意,但Opus 4.5最有意义的改进 arguably 是它在token使用效率上的显著提升。根据Anthropic博客文章提供的示例:

设置为中等努力水平时,Opus 4.5在SWE-bench Verified上达到与Sonnet 4.5最佳分数相同的水平,但输出token使用量减少了76%。在其最高努力水平下,Opus 4.5比Sonnet 4.5性能高出4.3个百分点——同时使用48%更少的token。

AI效率对比图表

这种效率提升意味着开发者可以在保持相同性能水平的情况下大幅降低成本,或者用相同的预算实现更复杂的任务。这一突破对于AI模型的规模化应用和商业化具有重要意义。

开发者平台的创新更新

Opus 4.5的发布伴随着面向开发者和用户的其他新功能。

新的"努力"参数

开发者平台现在包括一个新的"努力"参数,允许开发者更精确地调整他们希望在效果和token使用量之间达到的平衡。这一灵活性使开发者能够根据具体应用场景的需求,在性能和成本之间做出最佳权衡。

Claude Code的桌面集成

Claude Code现在可以在桌面Claude应用中使用。此前,它可通过命令行、IDE扩展和网络访问——只是不在原生桌面应用中。Claude桌面界面现在在传统聊天体验和Claude Code体验之间使用了标签页设计,为开发者提供了更无缝的工作流程。

Claude Code界面

API定价的重大调整

最后(对一些人来说也是最重要的),Opus 4.5的API发生了重大定价变化。现在每百万token的输入成本为5美元,输出成本为25美元,分别从之前的15美元和75美元大幅下调。这一降价使Opus 4.5在市场上更具竞争力,特别是对于需要大量API调用的企业级应用。

行业影响与未来展望

Opus 4.5的发布代表了AI模型发展的一个重要里程碑。它不仅展示了性能的提升,更强调了效率和实用性在AI模型发展中的重要性。这一趋势可能预示着AI行业未来的发展方向——在追求更高性能的同时,更加注重效率、成本效益和用户体验。

对于企业用户而言,Opus 4.5的改进意味着可以以更低的成本部署更强大的AI功能,从而加速AI在各个行业的应用落地。对于开发者来说,新的工具和参数提供了更大的灵活性和控制力,有助于构建更创新的AI应用。

随着AI模型竞争的加剧,我们可以预期未来会有更多类似的突破——不仅关注技术指标,也注重实际应用中的用户体验和经济性。Opus 4.5的成功可能会推动整个行业向更高效、更实用的方向发展。