Anthropic近日发布的Claude Sonnet 4.5模型在AI领域掀起了新的波澜,这款被公司称为"迄今为止最强大的模型"不仅展现出卓越的编程能力,更令人瞩目的是其能够连续30小时专注于复杂多步骤任务而不失连贯性。这一突破性进展标志着AI技术在长期任务处理能力方面的重要里程碑。
突破性性能:30小时持续专注
在AI模型发展史上,长时间保持任务专注一直是一个重大挑战。传统的AI代理模型在长时间运行后往往会因为错误累积和上下文窗口(模型的短期记忆)填满而失去连贯性。然而,Anthropic声称Sonnet 4.5已经能够"在同一个复杂多步骤任务上连续工作超过30小时",尽管公司未透露具体任务的细节。
这一突破意义重大,因为它意味着AI系统现在可以处理需要长期专注的复杂项目,如大型软件开发、数据分析或研究任务,而无需频繁重置或重新开始。此前,Anthropic曾提到其Claude 4.0模型能够连续玩《宝可梦》游戏超过24小时或重构代码长达7小时,而Sonnet 4.5显然在这方面实现了质的飞跃。
模型家族定位:性能与成本的平衡艺术
要理解Sonnet 4.5在Anthropic产品线中的定位,需要了解AI语言模型的工作原理。传统上,Anthropic在Claude家族中生产三种不同规模的AI模型:Haiku(最小)、Sonnet(中端)和Opus(最大)。模型大小(参数数量)大致与整体上下文深度(概念间的多维连接数量,可称为"知识")和更好的问题解决能力成正比,但更大的模型运行速度更慢且成本更高。
因此,AI公司总是在性能和成本之间寻找最佳平衡点。Claude Sonnet在过去两年中很好地扮演了这一角色,而4.5版本则进一步巩固了其中端市场地位。Anthropic最近在2024年11月更新了Haiku(至3.5版本),2025年5月更新了Sonnet(至4.0版本),2025年8月更新了Opus(至4.1版本),而Sonnet 4.5则是这一系列中的最新力作。
编程能力:超越行业竞争对手
Anthropic对Sonnet 4.5的编程能力充满信心,在公司网站上宣称:"Claude Sonnet 4.5是世界上最好的编程模型,是构建复杂代理的最强模型,是使用计算机的最佳模型,在推理和数学方面也显示出显著提升。"
这些声明得到了强劲的基准测试表现支持。Sonnet 4.5在SWE-bench Verified测试中取得了77.2%的分数,该基准测试旨在衡量实际软件编码能力。在OSWorld基准测试中,该模型以61.4%的分数领先,该测试评估AI模型在真实计算机任务上的表现。这些成绩超过了OpenAI的GPT-5 Codex(74.5分)和Google的Gemini 2.5 Pro(67.2分)。
多维度能力提升
除了编程能力,Sonnet 4.5在其他测试中也显示出显著提升。在AIME 2024(数学竞赛基准)和MMMLU(测试14种非英语语言学科知识)等评估中,该模型都有所进步。在由Vals AI的金融代理基准测试中,该模型在针对入门级金融分析师预期任务的测试中取得了92%的高分。
特别值得一提的是,Sonnet 4.5在计算机使用能力方面相比其前代产品也有所改进。四个月前,Claude Sonnet 4在OSWorld上的得分为42.2%,而新版本将这一分数提升至61.4%。这些能力被应用于Anthropic的Claude for Chrome扩展中,该扩展可以导航网站、填写电子表格并完成其他基于浏览器的任务,尽管成功率各不相同。
开发者工具生态扩展
与Sonnet 4.5一同发布的还有针对开发者的多项工具更新。Anthropic推出了Claude Code 2.0,这是一个命令行AI代理,专为开发者设计,以及Claude Agent SDK,这是一个开发者可以用来构建自己AI编码代理的工具。
这些更新包括:
- 添加保存进度并允许用户回滚到先前状态的检查点功能
- 刷新终端界面
- 发布原生VS Code扩展
- Claude API新增上下文编辑功能和处理长时间运行代理任务的内存工具
此外,Anthropic还在其网络界面和专用应用中直接添加了代码执行和文件创建功能,使用户无需离开聊天界面即可生成电子表格、幻灯片和文档。
"Imagine with Claude":实时软件生成演示
Anthropic还为Max订阅用户发布了一个名为"Imagine with Claude"的五天研究预览版,该功能展示了模型实时生成软件的能力。Anthropic将其描述为"结合适当基础设施后,展示Claude Sonnet 4.5能做什么的有趣演示"。
减少AI不良行为倾向
在当前AI聊天机器人用户出现"陷入幻想兔子洞"问题的背景下,Anthropic声称Claude Sonnet 4.5相比之前的模型减少了"奉承、欺骗、权力寻求和鼓励妄想思维"的倾向。特别是"奉承"(sycophancy)——AI模型倾向于赞扬用户的想法,即使这些想法是错误的或可能有害的——这种行为的减少是值得欢迎的进步。
市场影响与未来展望
AI公司目前特别重视软件开发基准测试,作为证明AI助手能力的证据,因为在其他领域的进展难以客观衡量,而且与可能受到幻觉困扰的领域相比,LLM在软件领域已经显示出高实用性。然而,人们仍然像使用通用助手一样使用Claude等AI聊天机器人。
独立开发者Simon Willison在博客上写道:"Anthropic本周末给了我一个'新模型'的预览版本,结果证明是Sonnet 4.5。我的初步印象是,它感觉是一个比GPT-5-Codex更好的编程模型,自几周前发布以来,GPT-5-Codex一直是我的首选编程模型。这个领域发展如此之快——Gemini 3据说即将到来,谁知道Sonnet 4.5能继续持有'最佳编程模型'的桂冠多久。"
Claude 4.5现已全面可用,通过API访问的模型价格与Claude Sonnet 4保持一致,输入 token 为每百万3美元,输出 token 为每百万15美元。开发者可以通过使用"claude-sonnet-4-5"作为模型标识符通过Claude API访问它。
结语:AI技术的持续演进
Claude Sonnet 4.5的发布不仅展示了Anthropic在AI模型开发方面的实力,也反映了整个行业向更专注、更实用AI系统发展的趋势。随着AI技术在持续专注能力、实际应用能力和减少不良行为倾向等方面的不断进步,我们可以期待看到更多能够真正辅助人类完成复杂任务的AI系统出现。在这个快速发展的领域,Sonnet 4.5无疑树立了一个新的标杆,但也预示着竞争将更加激烈,因为各大AI公司都在不断推出更强大的模型来争夺市场份额。