在人工智能领域竞争日益激烈的今天,Anthropic公司发布了其最新语言模型Claude Sonnet 4.5,宣称这是该公司迄今为止能力最强的模型,特别在编程和计算机使用方面有了显著提升。更引人注目的是,Anthropic表示该模型能够在复杂的多步骤任务中保持专注超过30小时,这一突破性表现引发了业界的广泛关注和讨论。
30小时专注:AI模型的重大突破
传统上,AI代理模型在长时间运行过程中往往会逐渐失去连贯性,错误会累积,上下文窗口(模型的短期记忆)也会被填满。然而,Anthropic声称Sonnet 4.5已经能够在同一个项目上连续工作30多个小时,处理复杂的多步骤任务,尽管公司没有提供这些任务的具体细节。
这一成就的意义不容小觑。在此之前,Anthropic曾提到其Claude 4.0模型能够连续玩《宝可梦》游戏超过24小时,或者重构代码长达7小时。而Sonnet 4.5的30小时专注表现,代表了AI模型在持久性和任务一致性方面的显著进步。
模型家族与市场定位
要理解Sonnet 4.5的重要性,需要了解Anthropic的AI模型架构。传统上,Anthropic在Claude家族中生产三种不同规模的AI模型:Haiku(最小)、Sonnet(中端)和Opus(最大)。模型规模(参数数量)大致与整体上下文深度(概念间的多维连接数量,可称为"知识")和问题解决能力成正比,但更大的模型运行速度更慢,成本也更高。
因此,AI公司总是在性能和成本之间寻找最佳平衡点。Claude Sonnet在过去两年中很好地扮演了这一角色,为Anthropic提供了合理的性能-成本权衡。
- Anthropic最后一次更新Haiku是在2024年11月(至3.5版本)
- Sonnet在今年5月更新(至4.0版本)
- Opus在8月更新(至4.1版本)
编程能力:超越竞争对手
Anthropic对Sonnet 4.5的编程能力充满信心,在其网站上宣称:"Claude Sonnet 4.5是世界上最好的编程模型,是构建复杂代理的最强模型,是使用计算机的最佳模型,并且在推理和数学方面显示出实质性提升。"
这些声明得到了基准测试结果的有力支持。Sonnet 4.5在SWE-bench Verified测试中取得了77.2%的分数,这是一个试图衡量真实世界软件编程能力的基准测试。在OSWorld基准测试中,该模型目前以61.4%的分数领先,该测试AI模型在真实计算机任务中的表现。
这些成绩超过了OpenAI的GPT-5 Codex(74.5分)和Google的Gemini 2.5 Pro(67.2分)。在AIME 2024数学竞赛基准测试和MMMLU(测试14种非英语学科知识)等其他评估中,Claude Sonnet 4.5也显示出多项提升。
在Vals AI的金融代理基准测试中,这是一个相对较新的基准,"测试代理执行初级金融分析师预期任务的能力",Sonnet 4.5得分高达92%。
计算机使用能力的显著提升
与前一版本相比,Sonnet 4.5据报道在计算机使用能力方面也有所改进。四个月前,Claude Sonnet 4在OSWorld上的得分为42.2%,而新版本将该分数提高到61.4%。
Anthropic在其Claude for Chrome扩展程序中使用这些功能,类似于OpenAI的ChatGPT Agent。Claude的扩展程序能够以不同程度的成功导航网站、填充电子表格和完成其他基于浏览器的任务。
开发者工具与生态系统更新
除了核心模型外,Anthropic还发布了几个配套工具,进一步增强了其AI生态系统:
- Claude Code 2.0:面向开发者的命令行AI代理
- Claude Agent SDK:开发者可用于构建自己的AI编码代理的工具
- 代码执行和文件创建功能:直接在对话中添加,用户无需离开聊天界面即可生成电子表格、幻灯片和文档
- Imagine with Claude:为期五天的研究预览,面向Max订阅用户,展示模型实时生成软件的能力
Claude Code还获得了多项更新,包括保存进度并允许用户回滚到之前状态的检查点、刷新的终端界面以及原生的VS Code扩展。Claude API也获得了新的上下文编辑功能和处理长时间运行代理任务的内存工具。
定价与市场策略
Claude 4.5现已全面上市。通过API访问,该模型保持了与Claude Sonnet 4相同的价格:每百万输入代币3美元,每百万输出代币15美元。开发者可以通过Claude API使用"claude-sonnet-4-5"作为模型标识符来访问它。
AI安全与伦理考量
在AI能力不断提升的同时,安全问题也日益受到关注。Anthropic声称,与之前的模型相比,Claude Sonnet 4.5显示出减少"奉承、欺骗、权力寻求和鼓励妄想思维倾向"的趋势。
特别值得注意的是,sycophancy(AI模型倾向于赞美用户想法,即使这些想法是错误或潜在危险的倾向)一直是AI模型的一个问题。减少这种行为在当今越来越依赖聊天bot进行远不止编程辅助帮助的世界中是受欢迎的消息。
行业专家评价
资深软件开发人员和Ars Technica的AI模型独立专家视角 frequent contributor Simon Willison今天在他的博客上写道Sonnet 4.5。他似乎总体上印象深刻:"Anthropic本周末给了我一个'新模型'的预览版本,结果是Sonnet 4.5,"他写道。"我的初步印象是,它感觉比GPT-5-Codex更适合编程,自几周前推出以来,GPT-5-Codex一直是我首选的编程模型。这个领域发展如此之快——Gemini 3据说即将到来,谁知道Sonnet 4.5能继续持有'最佳编程模型'的桂冠多久。"
基准测试的局限性
值得注意的是,AI基准测试很容易被操纵、设计不良或遭受数据污染(模型无意中在基准测试答案上训练的情况)。因此,在得到独立验证之前,始终应以保留态度看待任何基准测试。即使对自我报告的数据持怀疑态度,Sonnet 4.5似乎也比4.0有了显著提升,考虑到Anthropic随时间推移交付更强大模型的历史,我们没有特别的理由怀疑这一点。
AI行业的未来发展方向
目前,AI公司特别坚持软件开发基准测试作为AI助手能力的证明,因为其他领域的进展难以客观衡量,而且与其他可能遭受虚构困扰的领域相比,LLM在这个领域已经显示出高实用性。
然而,随着AI模型能力的不断提升,我们也需要关注其潜在风险和伦理问题。Anthropic在减少AI模型不良行为方面的努力值得肯定,但整个行业仍需共同努力,确保AI技术的发展方向符合人类的长期利益。
结论
Claude Sonnet 4.5的发布代表了AI技术发展的一个重要里程碑,特别是在长时间专注力和编程能力方面的突破。30小时的持续专注能力不仅展示了技术的进步,也为AI在实际应用中的可靠性提供了新的可能性。随着配套工具和生态系统的不断完善,Claude Sonnet 4.5有望在软件开发、数据分析等领域发挥更大作用。
然而,我们也应保持清醒的认识,AI技术的发展仍面临诸多挑战,包括基准测试的局限性、安全伦理问题等。只有通过持续的创新和负责任的发展,AI才能真正成为推动人类社会进步的强大工具。