在人工智能快速发展的今天,Anthropic公司发布了其最新旗舰模型Claude Opus 4.5,这款模型不仅在技术性能上实现了重大突破,更在实用性、安全性和成本效益方面树立了新标准。作为目前世界上最好的编程、代理和计算机使用AI模型,Opus 4.5正在重新定义AI在工作流程中的角色,为企业和开发者提供前所未有的智能支持。
技术突破:性能与效率的双重飞跃
Claude Opus 4.5在真实世界软件工程测试中展现了最先进的性能。在SWE-bench Verified基准测试中,Opus 4.5取得了最高分,这表明它在解决实际软件工程问题方面已经超越了其他前沿模型。

多语言编程能力是Opus 4.5的另一大亮点。在SWE-bench Multilingual测试中,Opus 4.5在8种编程语言中的7种上领先,展示了其跨语言编程的卓越能力。对于Aider Polyglot测试,Opus 4.5比Sonnet 4.5提升了10.6%,显示出解决复杂编程问题的显著优势。
在代理搜索能力方面,Opus 4.5在BrowseComp-Plus测试中取得了显著进步。而在长期任务执行能力上,Opus 4.5在Vending-Bench测试中比Sonnet 4.5高出29%,表明其在需要持续推理和长期规划的任务中表现出色。
创新问题解决能力
Opus 4.5最令人印象深刻的特性之一是其创新的问题解决方式。在τ2-bench测试中,面对一个航空公司服务代理场景,模型需要帮助一位希望修改基本经济舱预订的乘客。根据常规理解,基本经济舱通常不允许变更航班。
然而,Opus 4.5找到了一个巧妙且合法的解决方案:先升级舱位,然后再修改航班。这种创造性思维展示了AI系统在理解复杂约束条件并找到创新解决方案方面的潜力。
python
检查政策限制:
- 修改航班:基本经济舱不允许修改
- 更改舱位:所有预订包括基本经济舱都可以更改舱位
制定创新策略:
- 首先将舱位从基本经济舱升级至经济舱或商务舱
- 然后修改航班(非基本经济舱允许修改)
执行方案:
- 按照政策合法地满足客户需求
- 虽然会产生额外费用,但提供了合规的解决方案
这种创新思维不仅展示了Opus 4.5的推理能力,也预示着AI系统在工作流程中可能带来的范式转变。
安全性能:行业领先的AI安全标准
在追求性能提升的同时,Anthropic对Opus 4.5的安全性能进行了全面强化。根据系统卡显示,Opus 4.5是迄今为止发布的最稳健对齐模型,可能是开发者可用的最佳对齐前沿模型。
对抗提示注入攻击
提示注入攻击是AI安全面临的主要挑战之一,攻击者通过植入欺骗性指令来诱导模型产生有害行为。Opus 4.5在这一领域取得了重大突破,其抗提示注入能力优于行业内任何其他前沿模型。

这一基准测试仅包含非常强的提示注入攻击,由Gray Swan开发和执行。测试结果表明,Opus 4.5能够更好地识别和抵制恶意指令,为用户提供了更安全的AI使用环境。
广泛的安全评估
Anthropic对Opus 4.5进行了全面的安全评估,包括"令人担忧的行为"评分,该评分涵盖了多种对齐不良行为,包括与人类滥用的合作以及模型自身采取的不当行动。
对于经常使用Claude处理关键任务的企业客户来说,这种安全性能的提升尤为重要。面对黑客和网络犯罪分子的恶意攻击,Opus 4.5具备了必要的"街头智慧"来避免陷入麻烦。
开发者平台:更灵活的AI控制
随着AI模型变得越来越智能,它们能够以更少的步骤解决问题:更少的回溯、更冗余的探索、更简洁的推理。Claude Opus 4.5在达到相似或更好结果的同时,比其前身显著减少了token使用。
努力参数:性能与效率的平衡
不同任务需要不同的权衡。有时开发者希望模型继续思考问题;有时则需要更灵活的响应。通过Claude API上的新努力参数,开发者可以决定是最小化时间和支出,还是最大化能力。
- 在中等努力水平下,Opus 4.5在SWE-bench Verified上的得分与Sonnet 4.5的最佳成绩相匹配,但输出token减少了76%。
- 在最高努力水平下,Opus 4.5比Sonnet 4.5高出4.3个百分点,同时使用48%更少的token。

上下文管理与记忆能力
Opus 4.5的上下文管理和记忆能力可以显著提升代理任务的表现。该模型在管理一组子代理方面也非常有效,能够构建复杂、协调良好的多代理系统。
在测试中,所有这些技术的组合使Opus 4.5在深度研究评估中的性能提升了近15个百分点。这种提升对于需要长期运行和复杂推理的任务尤为重要。
高级工具使用
Opus 4.5在高级工具使用方面也取得了显著进步,使其能够执行更复杂的任务并减少人工干预。这些进步使得开发者能够构建更加自主和高效的AI系统。
产品更新:全面提升用户体验
Claude Code等产品展示了Claude开发者平台升级后可能实现的创新。随着Opus 4.5的发布,Claude Code获得了两项重要升级。
计划模式升级
计划模式现在构建更精确的计划并执行更彻底—Claude首先提出澄清问题,然后构建用户可编辑的plan.md文件,最后执行计划。
桌面应用支持
Claude Code现在在桌面应用中可用,允许并行运行多个本地和远程会话:一个代理修复bug,另一个研究GitHub,第三个更新文档。这种多任务处理能力大大提高了开发效率。
Claude应用改进
对于Claude应用用户,长对话不再遇到限制—Claude根据需要自动总结早期上下文,使对话能够持续进行。Claude for Chrome现在对所有Max用户开放,让Claude能够跨浏览器标签页处理任务。
Excel自动化扩展
Claude for Excel自10月发布以来,现已将测试版访问权限扩展到所有Max、Team和Enterprise用户。Opus 4.5在电子表格和计算机使用方面的市场领先性能使这些更新成为可能。
客户反馈:实际应用中的卓越表现
在正式发布前,Anthropic的同事对Opus 4.5进行了测试,听到了非常一致的反馈。测试人员指出,Claude Opus 4.5能够处理模糊性并权衡取舍,无需过多指导。当面对复杂的多系统bug时,Opus 4.5能够找出解决方案。几周前对Sonnet 4.5来说几乎不可能的任务,现在变得触手可及。总体而言,测试人员表示Opus 4.5"完全理解"。
企业级应用案例
早期访问的客户也经历了类似的情况。以下是部分客户反馈的示例:
Opus模型一直是"真正的SOTA",但过去成本过高。Claude Opus 4.5现在的价格点使其成为大多数任务的默认模型。它是明确的赢家,展现了我们所见过的最佳前沿任务规划和工具调用能力。
Jeff Wang, CEO
Claude Opus 4.5提供高质量代码,并擅长与GitHub Copilot一起驱动重型代理工作流程。早期测试显示它超越了内部编码基准,同时将token使用量减少一半,特别适合代码迁移和代码重构等任务。
Mario Rodriguez, 首席产品官
Claude Opus 4.5在我们的内部基准上超越了Sonnet 4.5和竞争对手,使用更少的token解决相同的问题。在大规模应用中,这种效率会累积起来。
Michele Catasta, 总裁
Claude Opus 4.5在Lovable的聊天模式中提供前沿推理,用户在其中规划和迭代项目。其推理深度改变了规划方式,而优秀的规划使代码生成更加出色。
Fabian Hedin, CTO兼联合创始人
Claude Opus 4.5擅长长期自主任务,特别是那些需要持续推理和多步执行的任务。在我们的评估中,它以更少的死端处理了复杂工作流程。在Terminal Bench上,它比Sonnet 4.5提升了15%,这是在使用Warp的规划模式时特别明显的显著提升。
Zach Lloyd, 创始人兼CEO
Claude Opus 4.5在企业级复杂任务上实现了最先进的结果,在结合信息检索、工具使用和深度分析的多步推理任务上优于之前的模型。
Kay Zhu, CTO
Claude Opus 4.5在最关键的地方带来了可衡量的提升:在我们最难的评估上更强的结果,以及在30分钟自主编码会话中的稳定性能。
Scott Wu, CEO
Claude Opus 4.5在自我改进AI代理方面取得了突破。对于办公任务自动化,我们的代理能够自主改进自己的能力—在4次迭代中达到峰值性能,而其他模型在10次迭代后仍无法匹配这种质量。它们还展示了在技术任务中从经验学习的能力,存储洞察并在以后应用。
Yusuke Kaji, AI业务总经理
Claude Opus 4.5在Cursor中相比之前的Claude模型有了显著改进,具有更好的定价和困难编码任务的智能。
Michael Truell, CEO兼联合创始人
Claude Opus 4.5是Anthropic推动通用前沿智能的又一个例子。它在困难的编码任务上表现出色,展示了长期目标导向行为。
Eno Reyes, CTO兼联合创始人
Claude Opus 4.5交付了一个跨越两个代码库和三个协调代理的令人印象深刻的重构。它非常彻底,帮助制定了稳健的计划,处理细节并修复测试。从Sonnet 4.5迈出的明显一步。
Paulo Arruda, AI生产力高级工程师
Claude Opus 4.5比我们测试过的任何模型都更高效地处理长期编码任务。它在保留测试上通过率更高,同时使用多达65%更少的token,让开发者在不牺牲质量的情况下获得真正的成本控制。
Sean Ward, CEO兼联合创始人
我们发现Opus 4.5擅长解释用户实际想要什么,第一次尝试就能产生可分享的内容。结合其速度、token效率和出人意料的高性价比,这是我们首次在Notion Agent中提供Opus。
Sarah Sachs, AI主管工程师
Claude Opus 4.5擅长长篇故事叙述,生成10-15页的章节,组织良好且一致。它解锁了我们以前无法可靠交付的用例。
Djay Lee, CPO兼联合创始人
Claude Opus 4.5为Excel自动化和财务建模设定了新标准。我们内部评估的准确性提高了20%,效率提升了15%,曾经看似遥不可及的复杂任务变得可行。
Nico Christie, 联合创始人
Claude Opus 4.5是唯一能够解决我们一些最困难3D可视化的模型。精致的设计、优雅的用户体验和出色的规划与编排能力—所有这些都使用更高效的token使用。以前需要其他模型2小时的任务现在只需三十分钟。
Madhav Jha, CTO
Claude Opus 4.5在不牺牲精度的情况下在代码审查中捕获更多问题。对于大规模生产代码审查,这种可靠性至关重要。
David Loker, AI总监
基于使用Junie(我们的编码代理)进行的测试,Claude Opus 4.5在所有基准上都优于Sonnet 4.5。它需要更少的步骤来完成任务,因此使用的token也更少。这表明新模型更精确,更有效地遵循指令—这是我们非常兴奋的方向。
Andrew Zakonov, Junie & Kineto业务副总裁
努力参数非常出色。Claude Opus 4.5感觉动态而不是过度思考,在较低努力水平下提供我们需要的相同质量,同时效率显著提高。这种控制正是我们的SQL工作流程所需要的。
AJ Orbach, CEO兼联合创始人
我们看到Claude Opus 4.5的工具调用错误和构建/检查错误减少了50%到75%。它以更可靠的执行在更少的迭代中一致完成复杂任务。
Nicholas Charriere, 创始人兼CEO
Claude Opus 4.5流畅,没有我们看到其他前沿模型的粗糙边缘。速度改进非常显著。
Quinn Slack, CEO
人类工程能力对比
Anthropic设计了一个 notoriously 难以通过的家考工程测试,作为内部基准来评估新的模型。在规定的2小时时间限制内,Claude Opus 4.5的得分高于任何人类候选人。
这个家考测试旨在评估时间压力下的技术能力和判断力。它不测试候选人可能拥有的其他关键技能,如协作、沟通或多年培养的直觉。但这一结果——AI模型在重要技术技能上超越强劲候选人——引发了关于AI将如何改变工程作为职业的问题。
Anthropic的社会影响和经济未来研究旨在理解许多领域的这类变化。计划很快分享更多结果。

多领域性能提升
软件工程不是Claude Opus 4.5改进的唯一领域。整体能力全面提高—Opus 4.5在视觉、推理和数学技能方面优于其前身,并在许多领域处于最先进水平:
- 多语言编程:Opus 4.5在SWE-bench Multilingual中领先7种编程语言
- 问题解决:在Aider Polyglot测试中比Sonnet 4.5提升10.6%
- 代理搜索:在BrowseComp-Plus测试上显著提升
- 长期任务:在Vending-Bench测试上比Sonnet 4.5高出29%
未来展望
Claude Opus 4.5的发布不仅是一次产品更新,更是AI系统发展的重要里程碑。它展示了AI在理解复杂问题、创新解决方案和执行长期任务方面的显著进步。
随着Anthropic继续改进其模型和平台,我们可以期待看到更多创新应用的出现。从软件开发到企业流程自动化,从创意内容生成到复杂决策支持,AI系统正在重新定义我们与技术的互动方式。
对于开发者和企业而言,Opus 4.5的推出意味着更强大的工具和更高效的工作流程。通过合理的成本结构和灵活的努力参数,不同规模的组织都可以利用这一前沿技术提升生产力。
随着AI技术的不断发展,我们也需要继续关注其安全性和伦理影响。Anthropic在安全评估和对齐方面的努力为行业树立了标杆,确保AI技术的发展能够造福人类。
结语
Claude Opus 4.5代表了AI系统在编程、代理和计算机使用领域的重要进展。通过其卓越的性能、创新的问题解决能力和强大的安全特性,Opus 4.5正在为AI在工作流程中的应用开辟新的可能性。
随着开发者平台和产品生态的不断成熟,我们可以预见一个AI与人类协作更加紧密的未来。在这个未来中,AI系统不仅作为工具,更作为合作伙伴,帮助我们解决复杂问题、创造创新解决方案,并最终提升人类的工作效率和创造力。


