Anthropic发布Opus 4.5:性能提升、成本降低与长对话革命

0

在人工智能领域竞争日益激烈的背景下,Anthropic公司于近日发布了其最新的旗舰模型Opus 4.5,这一版本不仅在性能上实现了显著提升,还在成本控制和用户体验方面带来了革命性改进。Opus 4.5的推出标志着Anthropic在前沿模型领域的重要突破,也为整个AI行业树立了新的技术标准。

长对话管理的突破性进展

对于大多数用户而言,Opus 4.5最引人注目的改进在于长对话管理能力的显著增强。长期以来,大语言模型在处理长对话时面临一个普遍问题:当对话长度超过模型的上下文窗口限制时,模型要么开始裁剪早期消息,要么直接中断对话。Anthropic选择了一种更加智能的解决方案。

长对话管理

在之前的版本中,当用户遇到对话突然中断时,尽管他们的会话和每周使用预算仍有剩余空间,但实际上是遇到了200,000 token的硬性上下文窗口限制。与其他一些大型语言模型实现不同,Claude不会简单地裁剪较早的消息,而是选择直接结束对话,以避免用户体验模型逐渐变得不连贯、开始遗忘早期内容的糟糕体验。

Opus 4.5引入了一套创新的背景处理机制,能够自动对话早期部分的关键点进行摘要,同时丢弃模型认为不重要的内容,保留有价值的信息。这一改进不仅适用于Opus 4.5,也应用于当前所有Claude应用中的模型。

对于API开发者,Anthropic提供了类似的上下文管理和上下文压缩功能,使开发者能够充分利用这一技术优势。这一创新解决了大语言模型在实际应用中的一个长期痛点,为用户提供了更加流畅、连贯的对话体验。

性能基准测试的领先表现

Opus 4.5在性能基准测试中取得了令人瞩目的成绩。该模型成为首个在SWE-Bench Verified基准测试中准确率超过80%的模型,达到了80.9%的准确率, narrowly超越了OpenAI最近发布的GPT-5.1-Codex-Max(77.9%)和Google的Gemini 3 Pro(76.2%)。

在代理编程和代理工具使用基准测试中,Opus 4.5表现出色,特别适合需要复杂代码生成和工具调用的应用场景。然而,在视觉推理方面(MMMU基准测试),该模型仍然落后于GPT-5.1。

Anthropic还强调,Opus 4.5相比之前的Claude模型以及竞争对手的模型如GPT-5.1和Gemini 3 Pro,对提示注入攻击的抵抗力显著增强。尽管如此,Anthropic也承认,在这些模型中,没有任何一个在抵抗提示注入攻击方面表现完美,这仍然是整个行业需要持续改进的方向。

Token效率的革命性提升

尽管基准测试中的性能改进值得注意,但Opus 4.5最有意义的进步 arguably 是其在token使用效率方面的显著提升。根据Anthropic的博客文章提供的数据,这种提升相当可观:

将Opus 4.5设置为中等努力水平,它在SWE-bench Verified上取得了与Sonnet 4.5最佳成绩相同的分数,但使用了76%更少的输出token。在其最高努力水平下,Opus 4.5的性能比Sonnet 4.5高出4.3个百分点——同时使用了48%更少的token。

这种效率提升对开发者和用户都具有重大意义。更高的token效率意味着在相同预算下可以进行更多的计算,或者在保持相同计算量的同时大幅降低成本。这对于企业级应用和大规模部署尤为重要,可以显著降低AI应用的总拥有成本。

新功能与开发者体验改进

Opus 4.5的发布伴随着一系列面向开发者和用户的新功能,进一步提升了整体用户体验。

努力参数的引入

Anthropic的开发者平台现在引入了一个新的"努力"参数,允许开发者更精确地调整他们在功效和token使用之间想要实现的平衡。这一功能为开发者提供了更大的灵活性,可以根据具体应用场景的需求来优化模型性能和成本之间的关系。

Claude Code的全面支持

Claude Code现已集成到桌面Claude应用中,为开发者提供了更加统一的开发体验。此前,Claude Code可通过命令行、IDE扩展和网页使用,但并未包含在原生桌面应用中。现在,Claude桌面界面在传统聊天体验和Claude Code体验之间提供了标签页切换功能,使开发者能够在同一环境中无缝切换对话和代码编辑功能。

API价格的大幅下调

对于许多用户而言,最令人兴奋的消息可能是Opus 4.5 API价格的显著下调。新的定价结构为:输入token每百万token 5美元,输出token每百万token 25美元,相比之前的15美元/75美元大幅降低。这一价格调整使Opus 4.5成为市场上最具成本效益的前沿模型之一,有望加速其在企业级应用中的采用。

行业影响与未来展望

Opus 4.5的发布对AI行业产生了多方面的影响。从技术角度看,它在多个关键基准测试中超越了竞争对手,特别是在代码生成和工具使用方面,这可能对软件开发领域产生深远影响。从商业角度看,大幅降低的API价格使Anthropic在价格敏感的市场中获得了显著竞争优势。

AI技术发展

长对话管理能力的突破性进展解决了大语言模型在实际应用中的一个长期痛点,为更复杂、更深入的对话式应用铺平了道路。这一创新可能会催生新一代的对话式AI应用,这些应用需要维持更长的上下文和更复杂的推理链。

然而,Opus 4.5也显示出AI技术发展的某些局限性。尽管在多个领域取得了显著进步,但在视觉推理等方面仍有提升空间。此外,对提示注入攻击的完全防御仍然是行业面临的共同挑战。

结论

Anthropic的Opus 4.5代表了前沿AI模型的一个重要里程碑,它在性能、效率和用户体验方面都实现了显著提升。通过创新的长对话管理机制、卓越的代码生成能力、更高的token效率以及大幅降低的API价格,Opus 4.5不仅增强了Anthropic在AI市场的竞争力,也为整个行业设定了新的技术标准。

随着AI技术的不断发展,我们可以预期未来模型将在更多领域实现突破,特别是在多模态理解、推理能力和安全性方面。Opus 4.5的成功发布表明,Anthropic正在积极推动这些前沿领域的创新,并将在未来的AI技术竞争中扮演重要角色。