人工智能领域再次迎来重大突破。Anthropic公司最新发布的Claude Sonnet 4.5模型不仅能在复杂多步骤任务中保持长达30小时的持续专注,更在编程基准测试中超越OpenAI和Google等竞争对手,成为当前全球最强大的AI编程模型。这一突破性进展不仅标志着AI模型在长期任务处理能力上的显著提升,也为开发者提供了前所未有的编程辅助工具。
长期专注:AI模型的新里程碑
Anthropic公司宣布,Claude Sonnet 4.5能够在同一项目上持续工作超过30小时,处理复杂的多步骤任务而不失焦。这一成就令人瞩目,因为以往的AI代理模型在长时间运行后往往会因为错误累积和上下文窗口(模型的短期记忆)填满而逐渐失去连贯性。
值得注意的是,这并非Anthropic首次展示其AI模型的长时间工作能力。此前,公司曾提到Claude 4.0模型能够连续玩《宝可梦》游戏超过24小时,或对代码进行长达7小时的重构工作。然而,Sonnet 4.5将这一能力提升到了新的高度,30小时的持续专注展现了AI模型在长期复杂任务处理上的实质性突破。
技术架构:平衡性能与成本的艺术
要理解Sonnet 4.5的技术意义,需要先了解Anthropic的AI模型架构。传统上,Anthropic在Claude家族中提供三种不同规模的AI模型:Haiku(最小)、Sonnet(中端)和Opus(最大)。模型规模通过参数数量体现,这些参数存储在神经网络中,大致与整体上下文深度(概念间的多维连接数量,可称为"知识")和问题解决能力成正比。
然而,更大的模型运行速度更慢且成本更高。因此,AI公司总是在性能和成本之间寻找最佳平衡点。Claude Sonnet在过去两年中很好地扮演了这一角色,为Anthropic提供了理想的性能-成本权衡。
Anthropic最近更新了其模型系列:2024年11月更新了Haiku(至3.5版本),2025年5月更新了Sonnet(至4.0版本),2025年8月更新了Opus(至4.1版本)。而最新的Sonnet 4.5则代表了这一系列模型的最新进展。
编程能力:超越竞争对手的基准测试
Anthropic对其最新版本的Sonnet编程能力充满信心,在公司网站上宣称:"Claude Sonnet 4.5是全球最佳的编程模型,是构建复杂代理的最强模型,也是使用计算机的最佳模型,在推理和数学方面显示出显著提升。"
这些声明得到了强有力的基准测试数据支持。Sonnet 4.5在SWE-bench Verified上取得了77.2%的分数,这是一个试图衡量实际软件编码能力的基准测试。同时,它目前以61.4%的分数领先OSWorld基准测试,该测试评估AI模型在真实计算机任务上的表现。这一成绩超越了OpenAI的GPT-5 Codex(74.5%)和Google的Gemini 2.5 Pro(67.2%)。
在其他测试中,Claude Sonnet 4.5也显示出多项评估的显著提升,包括AIME 2024数学竞赛基准测试和MMMLU(测试14种非英语学科知识)。在由Vals AI的金融代理基准测试测量的特定金融任务上,这是一个相对较新的基准,"测试代理执行入门级金融分析师预期任务的能力",Sonnet 4.5获得了92%的高分。
计算机使用能力:从42.2%到61.4%的飞跃
与前一版本相比,Sonnet 4.5据报道在计算机使用能力方面也有所改进。四个月前,Claude Sonnet 4在OSWorld上的得分为42.2%,而新版本将这一分数提升至61.4%,增长了近20个百分点。
Anthropic在其Claude for Chrome扩展中利用了这些能力,类似于OpenAI的ChatGPT Agent。Claude的扩展能够以不同程度的成功导航网站、填充电子表格和完成其他基于浏览器的任务。
专家评价:"感觉比GPT-5-Codex更好"
资深软件开发人员和Ars Technica的AI模型独立专家视角来源Simon Willison今天在他的博客上撰写了关于Sonnet 4.5的文章。他似乎总体上印象深刻:"Anthropic本周末给了我一个'新模型'的预览版本,结果是Sonnet 4.5,"他写道。"我的初步印象是,它感觉比GPT-5-Codex更好的代码模型,自几周前推出以来,GPT-5-Codex一直是我首选的编程模型。这个领域发展如此之快——据说Gemini 3即将推出,谁知道Sonnet 4.5将能保持'最佳编程模型'的桂冠多久。"
实用功能与开发者工具
Claude 4.5现已全面可用。通过API,该模型保持与Claude Sonnet 4相同的价格:每百万输入代币3美元,每百万输出代币15美元。开发者可以通过使用"claude-sonnet-4-5"作为模型标识符,通过Claude API访问它。
除了新模型外,Claude家族的一些辅助功能今天也得到了升级。例如,Anthropic直接在对话中为Claude的网页界面和专用应用用户添加了代码执行和文件创建功能。沿着这些方向,用户现在可以在不离开聊天界面的情况下生成电子表格、幻灯片和文档。
该公司还发布了一个名为"Imagine with Claude"的五天研究预览,供Max订阅者使用,展示了模型实时生成软件的能力。Anthropic将其描述为"一个有趣的演示,展示了结合适当基础设施后Claude Sonnet 4.5能做什么"。
如上所述,命令行开发工具Claude Code也随新模型一起获得了多项更新。该公司添加了保存进度并允许用户回滚到先前状态的检查点,刷新了终端界面,并推出了原生的VS Code扩展。Claude API还获得了新的上下文编辑功能和用于处理更长时间运行代理任务的内存工具。
安全性与可靠性:减少奉承与欺骗
当前,AI公司特别坚持使用软件开发基准测试来证明AI助手的能力,因为其他领域的进展难以客观衡量,而且与其他可能存在幻觉问题的领域相比,这是LLMs arguably显示出高实用性的领域。但人们仍然像通用助手一样使用Claude等AI聊天机器人。
鉴于最近有关一些用户陷入AI聊天机器人幻想困境的新闻,Anthropic声称Claude Sonnet 4.5与前代模型相比,显示出减少的"奉承、欺骗、权力寻求和鼓励妄想思维"的倾向,这一点可能比平时更为显著。特别是奉承,是指AI模型倾向于赞扬用户的想法,即使这些想法是错误的或潜在危险的。
虽然我们可以争论Anthropic如何通过明显拟人化的视角来描述一些AI输出行为,但总体而言,在一个越来越多地使用聊天机器人而不仅仅是编程帮助的世界里,减少奉承的尝试是受欢迎的消息。
行业影响与未来展望
Claude Sonnet 4.5的发布不仅代表了Anthropic的技术成就,也对整个AI行业产生了深远影响。首先,它确立了新的行业标准,特别是在编程和代码生成领域,迫使竞争对手加速创新以保持竞争力。
其次,30小时的持续专注能力解决了AI在实际应用中的一个关键痛点——长期任务处理。这一特性使AI能够在更复杂的项目中发挥更大作用,从软件开发到数据分析,从内容创作到科学研究。
此外,Sonnet 4.5在减少不良行为如奉承和欺骗方面的改进,反映了AI安全研究的进步。随着AI系统在社会中扮演越来越重要的角色,确保这些系统的可靠性和安全性变得至关重要。
开发者生态系统的扩展
除了核心模型外,Anthropic还推出了Claude Code 2.0和Claude Agent SDK,这两项工具极大地扩展了AI在软件开发领域的应用边界。Claude Code 2.0为开发者提供了命令行AI代理,而Claude Agent SDK则使开发人员能够构建自己的AI编码代理。
这些工具的发布表明,Anthropic不仅关注模型本身的能力,还致力于构建一个完整的开发者生态系统,使AI技术能够更容易地集成到现有的开发工作流程中。这种生态系统的方法对于AI技术的广泛应用至关重要。
结论:AI编程新纪元的开端
Claude Sonnet 4.5的发布标志着AI编程能力进入了一个新阶段。其30小时的持续专注能力、卓越的编程性能以及改进的安全特性,共同构成了一个更强大、更可靠的AI助手。随着Claude Code 2.0和Claude Agent SDK的推出,开发者现在拥有了更丰富的工具来利用这些先进能力。
然而,正如任何技术进步一样,我们也需要保持批判性思维。AI基准测试可能被轻易操纵、设计不当或受到数据集污染的影响。因此,在得到独立验证之前,应对任何基准测试结果持谨慎态度。
尽管如此,Sonnet 4.5无疑代表了AI技术的一个重要里程碑,它不仅展示了当前AI能力的边界,也预示了未来发展的方向。随着AI模型变得越来越强大和可靠,它们将在越来越多的领域改变我们工作和生活的方式,而Claude Sonnet 4.5正是这一变革浪潮中的先行者。