在人工智能技术日新月异的今天,Anthropic公司发布的Claude Sonnet 4.5模型犹如一颗耀眼的新星,以其在复杂多步骤任务中连续工作30小时以上的惊人表现,重新定义了人们对AI模型能力边界的认知。这一突破不仅展示了AI模型在长时间任务中的稳定性,更标志着人工智能在专业领域应用的重要里程碑。
长时间专注:AI模型的持久性革命
Anthropic公司宣布,Claude Sonnet 4.5能够在同一项目上持续工作"超过30小时,处理复杂的多步骤任务",尽管公司未透露具体任务的细节。这一成就令人瞩目,因为以往的AI代理模型通常在长时间运行后会出现注意力分散、错误累积以及上下文窗口(模型的一种短期记忆机制)饱和等问题。
值得注意的是,这并非Anthropic首次展示其AI模型的持久能力。此前,该公司曾提到Claude 4.0模型能够连续玩《宝可梦》游戏超过24小时,或者重构代码长达7小时。然而,Sonnet 4.5将这一能力提升到了新的高度,30小时的连续专注度代表了AI模型在长期任务处理方面的重要突破。
Claude家族:模型大小与性能的平衡艺术
要理解Sonnet 4.5的意义,我们需要了解Anthropic的AI模型架构。传统上,Anthropic在Claude家族中提供三种不同规模的AI模型:Haiku(最小)、Sonnet(中等)和Opus(最大)。模型大小由参数数量决定,这些参数存储在神经网络中,大致与整体上下文深度(概念间的多维连接数量,可称为"知识")和更好的问题解决能力成正比,但更大的模型运行速度更慢且成本更高。
Anthropic在2024年11月更新了Haiku(至3.5版本),2025年5月更新了Sonnet(至4.0版本),2025年8月更新了Opus(至4.1版本)。AI公司始终在性能与成本之间寻找最佳平衡点,而Claude Sonnet在过去两年中很好地扮演了这一角色。
编码能力的新标杆
Claude Sonnet 4.5在编码能力上的表现尤为突出。Anthropic自信地宣称:"Claude Sonnet 4.5是全球最佳编码模型,是构建复杂代理的最强模型,是使用计算机的最佳模型,在推理和数学方面也显示出显著提升。"
这些声明得到了基准测试数据的强力支持。Sonnet 4.5在SWE-bench Verified上取得了77.2%的得分,该基准测试旨在衡量真实的软件编码能力;在OSWorld基准测试中以61.4%的领先分数,该测试评估AI模型在真实计算机任务中的表现。这些成绩超过了OpenAI的GPT-5 Codex(74.5%)和Google的Gemini 2.5 Pro(67.2%)。
多领域能力的全面提升
除了编码能力,Claude Sonnet 4.5在其他评估中也显示出显著提升。在AIME 2024数学竞赛基准测试和MMMLU(测试14种非英语语言学科知识)方面,该模型都有出色表现。在由Vals AI的Finance Agent基准测试评估的特定金融任务中,Sonnet 4.5取得了92%的高分,该测试"评估代理执行初级金融分析师预期任务的能力"。
计算机使用能力的飞跃
与前一版本相比,Sonnet 4.5在计算机使用能力方面也取得了显著进步。四个月前,Claude Sonnet 4在OSWorld上的得分为42.2%,而新版本将这一分数提升至61.4%。这些能力被应用于Anthropic的Claude for Chrome扩展中,类似于OpenAI的ChatGPT Agent,Claude的扩展能够以不同程度的成功导航网站、填写电子表格和完成其他基于浏览器的任务。
专家视角与市场反应
资深软件开发人员和Ars Technica的AI模型独立专家视角经常提供者Simon Willison在他的博客上对Sonnet 4.5发表了评论。他似乎总体上印象深刻:"Anthropic本周末让我接触了一个'新模型'的预览版本,结果证明是Sonnet 4.5,"他写道,"我的初步印象是,它感觉比GPT-5-Codex更适合编程,自几周前推出以来,GPT-5-Codex一直是我首选的编程模型。这个领域发展如此之快——有传言称Gemini 3即将推出,谁知道Sonnet 4.5能继续持有'最佳编码模型'的桂冠多久。"
价格与可用性
Claude 4.5现已全面可用。通过API,该模型保持与Claude Sonnet 4相同的价格:每百万输入 token 3美元,每百万输出 token 15美元。开发者可以通过使用"claude-sonnet-4-5"作为模型标识符,通过Claude API访问它。
其他新功能与工具升级
除了核心模型升级,Claude家族的一些辅助功能也得到了更新。Anthropic在Claude的网页界面和专用应用中直接添加了代码执行和文件创建功能。用户现在可以在不离开聊天界面的情况下生成电子表格、幻灯片和文档。
该公司还发布了一个名为"Imagine with Claude"的五天研究预览,供Max订阅者使用,展示了模型实时生成软件的能力。Anthropic将其描述为"在与适当基础设施结合时,展示Claude Sonnet 4.5能做什么的有趣演示"。
命令行开发工具Claude Code也随新模型获得了多项更新。公司添加了保存进度并允许用户回滚到先前状态的检查点,刷新了终端界面,并发布了原生的VS Code扩展。Claude API还获得了新的上下文编辑功能和处理更长运行的代理任务的内存工具。
AI安全与伦理的进步
目前,AI公司特别执着于软件开发基准测试作为AI助手能力的证明,因为其他领域的进展难以客观衡量,而且与可能存在编造问题的其他领域相比,这是大语言模型(LLMs)显示出高实用性的领域。但人们仍然像Claude这样的AI聊天机器人作为通用助手使用。鉴于最近关于一些用户陷入AI聊天机器人幻想的报道,Anthropic声称Claude Sonnet 4.5与之前的模型相比,显示出减少的"谄媚、欺骗、权力寻求和鼓励妄想思维"的倾向,这一点或许比平常更为引人注目。
谄媚(Sycophancy)特别是指AI模型倾向于赞扬用户的想法,即使这些想法是错误的或潜在危险的。尽管我们可以对Anthropic如何通过明显拟人化的镜头来描述某些AI输出行为提出质疑,但总体而言,在一个越来越依赖聊天机器人而不仅仅是编程协助的世界里,减少谄媚的尝试是受欢迎的。
行业影响与未来展望
Claude Sonnet 4.5的发布不仅代表了Anthropic的技术成就,也对整个AI行业产生了深远影响。其30小时的持续专注能力为AI在需要长时间稳定执行的任务中的应用铺平了道路,从复杂的数据分析到持续的系统监控。
在软件开发领域,Sonnet 4.5的卓越表现可能会加速AI辅助编程的普及,使开发者能够更高效地构建和维护软件系统。同时,其在多语言理解和特定领域知识(如金融分析)方面的优势,也为AI在专业领域的应用开辟了新的可能性。
然而,随着AI能力的不断提升,我们也需要更加关注其潜在风险和伦理问题。Anthropic在减少谄媚、欺骗等不良行为方面的努力值得肯定,但AI安全与对齐的研究仍需持续推进,以确保这些强大的系统能够以符合人类价值观的方式运行。
结论
Claude Sonnet 4.5的发布标志着AI技术发展的重要里程碑,其长时间专注能力和卓越的编码性能为AI在专业领域的应用树立了新的标杆。随着AI技术的不断进步,我们可以期待看到更多像Sonnet 4.5这样的模型出现,它们将不仅改变我们与技术的交互方式,也将深刻影响软件开发、知识工作和许多其他领域的未来。
在AI技术快速发展的今天,像Claude Sonnet 4.5这样的突破提醒我们,人工智能正在从理论研究逐步走向实际应用的成熟阶段,其潜力远未被完全发掘。未来几年,随着技术的进一步发展和应用场景的拓展,我们有理由相信AI将在更多领域展现其变革性力量。