Claude Sonnet 4.5:30小时持续专注,AI编程能力新标杆

2

在人工智能技术日新月异的今天,Anthropic公司最新发布的Claude Sonnet 4.5模型无疑为整个行业带来了新的震撼。这款被Anthropic称为"迄今为止最强大的模型"不仅在编程能力上取得了突破性进展,更在持续专注能力上实现了质的飞跃——能够在复杂多步骤任务中保持专注超过30小时,打破了AI模型长时间运行时容易失去连贯性的传统局限。

技术突破:30小时持续专注的新高度

Anthropic公司表示,他们见证了Sonnet 4.5在同一项目上连续工作"超过30小时,处理复杂的多步骤任务",尽管公司并未透露这些任务的具体细节。这一成就意义重大,因为以往的AI代理模型在长时间运行时,往往会因错误累积和上下文窗口(模型的一种短期记忆)填满而逐渐失去连贯性。

回顾历史,Anthropic曾提到之前的Claude 4.0模型能够连续玩《宝可梦》游戏超过24小时,或重构代码长达7小时。而Sonnet 4.5将这一能力提升到了新的高度,展示了AI模型在长时间复杂任务处理上的巨大潜力。

Claude Sonnet 4.5 logo

模型定位:Anthropic产品线的平衡艺术

要理解Sonnet存在的意义,需要先了解AI语言模型的工作原理。传统上,Anthropic在Claude家族中生产三种不同规模的AI模型:Haiku(最小)、Sonnet(中等范围)和Opus(最大)。

Anthropic分别在2024年11月更新了Haiku(至3.5版本),2025年5月更新了Sonnet(至4.0版本),2025年8月更新了Opus(至4.1版本)。模型大小(参数数量,即存储在其神经网络中的值)大致与整体上下文深度(概念间的多维连接数量,可称为"知识")和更好的问题解决能力成正比,但较大的模型运行速度更慢且成本更高。

因此,AI公司总是在中间寻找一个平衡点,在合理的性能-成本权衡中取得最佳效果。Claude Sonnet在过去两年中很好地扮演了这一角色,而4.5版本的发布进一步巩固了其市场地位。

编程能力:超越行业巨头的新标杆

Claude因其Claude Code工具受到一些软件开发人员的青睐,而Anthropic对最新版Sonnet的编程能力充满信心:"Claude Sonnet 4.5是世界上最好的编程模型,"该公司在其网站上自豪地宣称。"它是构建复杂代理的最强模型,是使用计算机的最佳模型,并且在推理和数学方面显示出显著提升。"

Claude Sonnet 4.5 benchmark results

Anthropic通过强大的基准测试表现支持了这些声明。Sonnet 4.5模型在SWE-bench Verified上取得了77.2%的 reported 分数,该基准测试试图衡量现实世界的软件编程能力;目前以61.4%的成绩领先OSWorld基准测试,该测试AI模型在真实计算机任务上的表现。这一成绩超越了OpenAI的GPT-5 Codex(74.5分)和Google的Gemini 2.5 Pro(67.2分)。

在其他测试中,Claude Sonnet 4.5在多个其他评估中也显示出进步,如AIME 2024(数学竞赛基准测试)和MMMLU(测试14种非英语学科知识的测试)。在由Vals AI的Finance Agent基准测试衡量的特定金融任务上,这是一个相对较新的基准,"测试代理执行入门级金融分析师预期任务的能力",Sonnet 4.5取得了92分。

计算机使用能力:从42.2%到61.4%的飞跃

据报道,与前任相比,Sonnet 4.5在测试中还展示了改进的计算机使用能力。四个月前,Claude Sonnet 4在OSWorld上的得分为42.2%。新版本将该分数提高到61.4%。

Anthropic在其Claude for Chrome扩展中使用这些功能,类似于OpenAI的ChatGPT Agent。Claude的扩展可以导航网站、填写电子表格并完成其他基于浏览器的任务,成功率各不相同。

独立专家评价:"比GPT-5-Codex更适合编程"

资深软件开发人员和Ars Technica AI模型的独立专家视角经常提供者Simon Willison今天在他的博客上写到了Sonnet 4.5。他似乎总体印象深刻:"Anthropic本周末给了我一个'新模型'的预览版本,结果证明是Sonnet 4.5,"他写道。"初步印象是,它感觉比GPT-5-Codex更适合编程,自几周前推出以来,GPT-5-Codex一直是我首选的编程模型。这个领域发展如此之快——有传言称Gemini 3即将推出,谁知道Sonnet 4.5将能保持'最佳编程模型'的桂冠多久。"

定价策略与市场定位

Claude 4.5今天已在所有地方可用。通过API,该模型保持与Claude Sonnet 4相同的价格,每百万输入token 3美元,每百万输出token 15美元。开发人员可以通过Claude API使用"claude-sonnet-4-5"作为模型标识符来访问它。

附加功能升级:全面提升用户体验

Claude家族的一些辅助功能今天也得到了升级。例如,Anthropic直接在Claude的网页界面和专用应用程序的对话中添加了代码执行和文件创建功能。沿着这些思路,用户现在可以在不离开聊天界面的情况下生成电子表格、幻灯片和文档。

该公司还发布了一个名为"Imagine with Claude"的五天研究预览,供Max订阅者使用,展示了模型实时生成软件的情况。Anthropic将其描述为"当与适当基础设施结合时,展示Claude Sonnet 4.5能做什么的有趣演示"。

Available Anthropic AI models

开发者工具更新:Claude Code 2.0发布

如前所述,命令行开发工具Claude Code今天也随新模型获得了多项更新。该公司添加了保存进度并允许用户回滚到先前状态的检查点,刷新了终端界面,并发布了原生的VS Code扩展。Claude API还获得了新的上下文编辑功能和用于处理更长运行的代理任务的内存工具。

行业趋势:编程成为AI能力证明的新战场

目前,AI公司特别坚持软件开发展示基准作为AI助手能力的证明,因为其他领域的进展难以客观衡量,而且与其他可能受到幻觉困扰的领域相比,这是LLMs arguably显示出高实用性的领域。但人们仍然像Claude这样的AI聊天机器人作为通用助手使用。

鉴于最近有关一些用户陷入AI聊天机器人幻想兔子的新闻,Anthropic声称Claude Sonnet 4.5与之前的模型相比,显示出减少的"谄媚、欺骗、权力寻求和鼓励妄想思维的倾向",这一点比平常更为显著。谄媚特别是AI模型倾向于赞扬用户的想法,即使这些想法是错误的或潜在的危险。

安全与伦理:减少谄媚与危险行为

我们可以质疑Anthropic如何通过明确的人性化镜头来框架一些AI输出行为,但总体而言,在越来越多人转向聊天机器人寻求远不止编程帮助的世界里,减少谄媚的尝试是受欢迎的消息。

Anthropic声称Sonnet 4.5在多个关键安全指标上有所改进,包括减少谄媚行为、降低欺骗倾向、减少权力寻求行为以及减少鼓励妄想思维的倾向。这些改进对于AI技术的健康发展至关重要,特别是在AI系统被越来越多地用于关键决策和内容创作的今天。

未来展望:AI技术发展的新方向

Claude Sonnet 4.5的发布不仅代表了Anthropic的技术突破,也为整个AI行业的发展指明了方向。随着AI模型在持续专注能力、编程能力和多任务处理能力上的不断提升,我们可以预见AI将在更多领域发挥重要作用。

同时,AI技术的快速发展也带来了新的挑战和思考。如何在提升AI能力的同时确保其安全性和可控性,如何平衡AI的自主性与人类监督,这些都是行业需要共同面对的问题。

结论:AI技术的新里程碑

Claude Sonnet 4.5的发布无疑是AI技术发展史上的一个重要里程碑。它不仅在技术指标上取得了突破,更在实际应用场景中展现了AI的巨大潜力。随着AI技术的不断进步,我们有理由期待更多像Sonnet 4.5这样的创新成果出现,推动人类社会向更智能、更高效的方向发展。