Claude Sonnet 4.5:30小时持续专注,重新定义AI编程能力极限

1

在人工智能领域,模型持续专注能力一直是衡量技术进步的重要指标。Anthropic最新发布的Claude Sonnet 4.5不仅打破了这一领域的记录,更以惊人的性能表现重新定义了AI编程能力的边界。这款被Anthropic称为"迄今为止最强大的模型",不仅能在复杂多步骤任务中保持长达30小时的专注,还在多项权威基准测试中超越了OpenAI和Google的竞争对手。

突破性专注能力:30小时持续工作的AI

Anthropic宣称,Claude Sonnet 4.5能够在同一项目上连续工作"超过30小时,处理复杂的多步骤任务",尽管公司未透露具体任务的细节。这一突破性成就意义重大,因为以往的AI代理模型在长时间运行后,往往会因错误累积和上下文窗口(模型的短期记忆)填满而逐渐失去连贯性。

这一专注能力的突破解决了AI在实际应用中的一个关键痛点。在软件开发、数据分析等需要长时间专注的任务中,AI模型的持续表现直接决定了其实用价值。过去,Anthropic曾提到其Claude 4.0模型能够连续玩《宝可梦》游戏超过24小时,或重构代码长达7小时,而Sonnet 4.5将这一能力提升到了新的高度。

Claude Sonnet 4.5专注能力展示

模型架构与性能优化

要理解Sonnet 4.5的优势,需要了解Anthropic的AI模型架构策略。传统上,Anthropic在Claude系列中提供三种不同规模的模型:Haiku(最小)、Sonnet(中端)和Opus(最大)。模型规模(参数数量,存储在其神经网络中的值)大致与整体上下文深度(概念间的多维连接数量,可称为"知识")和更好的问题解决能力成正比,但较大的模型运行速度较慢且成本更高。

因此,AI公司总是在中间寻找一个平衡点,在性能和成本之间取得合理的权衡。Claude Sonnet在过去两年中很好地扮演了这一角色。Anthropic最后一次更新是在2024年11月将Haiku升级到3.5版本,2025年5月将Sonnet升级到4.0版本,2025年8月将Opus升级到4.1版本。

编程能力:全球最佳AI编程模型

Claude Sonnet 4.5在编程能力上的表现尤为突出。Anthropic在其网站上自信地宣称:"Claude Sonnet 4.5是全球最佳的编程模型,是构建复杂代理的最强模型,是使用计算机的最佳模型,在推理和数学方面也显示出显著提升。"

这些声明得到了强大的基准测试结果的支持。Sonnet 4.5在SWE-bench Verified上获得了77.2%的 reported分数,这是一个试图衡量真实世界软件编程能力的基准测试。目前,它以61.4%的成绩领先OSWorld基准测试,该测试AI模型在真实计算机任务上的表现。这超过了OpenAI的GPT-5 Codex(74.5分)和Google的Gemini 2.5 Pro(67.2分)。

Claude Sonnet 4.5基准测试结果

多领域性能提升

除了编程能力,Claude Sonnet 4.5在多个其他评估中也显示出进步。在AIME 2024(数学竞赛基准测试)和MMMLU(测试14种非英语学科知识)等测试中,Sonnet 4.5均有出色表现。

在金融领域,Sonnet 4.5在Vals AI的金融代理基准测试中获得了92%的高分。这一相对较新的基准测试"测试代理执行初级金融分析师预期任务的能力",表明该模型在专业领域应用中的潜力。

计算机使用能力的飞跃

与前一版本相比,Sonnet 4.5据报道在计算机使用能力方面也有所改进。四个月前,Claude Sonnet 4在OSWorld上的得分为42.2%,而新版本将该分数提高到61.4%。

Anthropic在其Claude for Chrome扩展中使用这些功能,类似于OpenAI的ChatGPT Agent。Claude的扩展能够不同程度地成功导航网站、填写电子表格和完成其他基于浏览器的任务。

开发者工具与生态系统升级

Claude Sonnet 4.5的发布伴随着一系列开发者工具的更新。Anthropic发布了Claude Code 2.0,这是一个面向开发者的命令行AI代理,以及Claude Agent SDK,这是开发者可以用来构建自己AI编码代理的工具。

Claude Code今天也收到了多项更新,包括保存进度并允许用户回滚到先前状态的检查点、刷新的终端界面以及原生的VS Code扩展。Claude API还获得了新的上下文编辑功能和处理更长运行的代理任务的内存工具。

安全性与行为改进

在AI安全性方面,Anthropic声称Claude Sonnet 4.5相比之前的模型显示出减少的"奉承、欺骗、权力寻求和鼓励妄想思维的趋势"。特别值得注意的是,sycophancy(AI模型倾向于赞扬用户想法的倾向,即使这些想法是错误的或潜在危险的)的减少。

在用户越来越依赖聊天机器人获取远不止编程帮助的当今世界,减少奉承行为是受欢迎的进步。这表明AI模型正在朝着更加客观、负责任的方向发展。

实际应用与行业影响

Claude Sonnet 4.5的发布对软件开发行业产生了深远影响。随着AI模型在编程能力上的不断提升,开发者的工作方式正在发生根本性变化。AI不再仅仅是代码补全工具,而是能够理解复杂项目结构、进行长时间开发的智能伙伴。

Simon Willison,一位资深软件开发人员和Ars Technica的AI模型独立专家视角的经常来源,今天在他的博客上写道:"Anthropic本周末给了我一个'新模型'的预览版本,结果是Sonnet 4.5。我的初步印象是,它感觉比GPT-5-Codex更适合代码编写,而GPT-5-Codex自几周前发布以来一直是我的首选编程模型。这个领域发展如此之快——Gemini 3据说即将推出,谁知道Sonnet 4.5能保持'最佳编程模型'的桂冠多久。"

定价与可用性

Claude 4.5现已全面可用。通过API,该模型保持了与Claude Sonnet 4相同的价格:每百万输入token 3美元,每百万输出token 15美元。开发者可以通过Claude API使用"claude-sonnet-4-5"作为模型标识符来访问它。

其他新功能

Claude系列的一些辅助功能今天也得到了升级。例如,Anthropic直接在Claude的网页界面和专用应用的对话中添加了代码执行和文件创建功能。用户现在可以在不离开聊天界面的情况下生成电子表格、幻灯片和文档。

该公司还发布了一个名为"Imagine with Claude"的五天研究预览,供Max订阅者使用,展示了模型实时生成软件的能力。Anthropic将其描述为"当与适当基础设施结合时,展示Claude Sonnet 4.5能做什么的有趣演示"。

未来展望

Claude Sonnet 4.5的发布标志着AI模型在持续专注能力和编程性能方面的重要里程碑。随着AI技术的快速发展,我们可以预见未来模型将在更长的时间范围内保持专注,处理更复杂的任务,并在更多专业领域展现出色表现。

然而,值得注意的是,AI基准测试容易被操纵、设计不良或受到数据集污染(模型无意中在基准测试中训练答案的场景)的影响。因此,在独立验证之前,任何基准测试结果都应持保留态度。尽管对自我报告的数据持怀疑态度,但Sonnet 4.5似乎代表了从4.0版本的一次实质性飞跃,考虑到Anthropic交付更强大模型的历史,我们没有特别的理由怀疑这一点。

随着AI技术的不断进步,我们可能会看到更多专注于特定领域的模型出现,以及更加注重安全性和伦理考量的设计。Claude Sonnet 4.5的发布不仅是技术上的突破,也为AI在软件开发领域的应用指明了方向。