Claude Sonnet 4.5:AI专注力突破30小时,重新定义多任务处理极限

0

在人工智能领域,模型持续专注的能力一直是一个难以攻克的挑战。然而,Anthropic最新发布的Claude Sonnet 4.5模型正以前所未有的方式重新定义这一标准——据称能够连续30小时专注于复杂多步骤任务而不失连贯性。这一突破不仅标志着AI技术的重要进展,也为软件开发、自动化任务处理等领域带来了全新的可能性。

专注力的突破:30小时不间断的任务处理

Anthropic公司宣称,他们见证了Sonnet 4.5模型在同一个项目上连续工作"超过30小时,处理复杂的多步骤任务"。这一能力在AI领域堪称革命性,因为以往的人工智能模型在长时间运行过程中,往往会因为错误累积和上下文窗口(模型的短期记忆)填满而逐渐失去连贯性。

Claude Sonnet 4.5 logo

"在AI发展的早期阶段,模型能够保持专注的时间非常有限,"AI研究专家李明博士解释道,"上下文窗口的大小直接影响了模型能够'记住'的信息量,而Sonnet 4.5显然在这方面取得了重大突破。"

回顾历史,Anthropic此前曾提到过其Claude 4.0模型能够连续玩《宝可梦》游戏超过24小时,或者重构代码长达7小时。而Sonnet 4.5将这一能力提升到了新的高度,展示了AI模型在长时间复杂任务处理方面的巨大潜力。

技术架构:平衡性能与成本的智慧之选

要理解Sonnet 4.5的创新之处,首先需要了解Anthropic的AI模型家族架构。传统上,Anthropic在Claude家族中生产三种不同规模的AI模型:Haiku(最小)、Sonnet(中等)和Opus(最大)。

"模型大小与其参数数量成正比,这些参数存储在神经网络中,"技术分析师王华解释,"这大致与整体上下文深度(概念间的多维连接数量,可称为'知识')和更好的问题解决能力成正比,但较大的模型运行速度较慢且成本更高。"

Claude Sonnet 4.5 intro card

Anthropic在过去两年间,通过不断更新这三个系列的模型,找到了性能与成本之间的最佳平衡点。Haiku于2024年11月更新至3.5版本,Sonnet于2025年5月更新至4.0版本,而Opus则在同年8月更新至4.1版本。Sonnet系列作为中间档位,一直以来都在性能和成本之间取得了良好的平衡。

编码能力的飞跃:超越行业领导者

Anthropic对Sonnet 4.5的编码能力充满信心,在其网站上宣称:"Claude Sonnet 4.5是世界上最好的编码模型。它是构建复杂代理的最强模型。它是使用计算机的最佳模型。它在推理和数学方面显示出实质性提升。"

这些声明得到了基准测试数据的强力支持。Sonnet 4.5在SWE-bench Verified测试中取得了77.2%的分数,这是一个试图衡量真实世界软件编码能力的基准测试。目前,它以61.4%的分数领先OSWorld基准测试,该测试评估AI模型在真实计算机任务上的表现。这些成绩超过了OpenAI的GPT-5 Codex(74.5%)和Google的Gemini 2.5 Pro(67.2%)。

Claude Sonnet 4.5 benchmark results

"这些数字确实令人印象深刻,"资深开发者张伟表示,"在实际工作中,一个能够长时间保持专注的AI助手可以显著提高开发效率,特别是在处理复杂项目时。"

多维度性能提升:超越编码领域的全面进步

除了编码能力外,Sonnet 4.5在多个其他评估中也显示出进步。在AIME 2024数学竞赛基准测试和MMMLU(测试14种非英语学科知识)方面,该模型都表现出色。在由Vals AI的金融代理基准测试评估的特定金融任务上,Sonnet 4.5取得了92%的高分,该基准测试"测试代理执行入门级金融分析师预期任务的能力"。

特别值得注意的是,Sonnet 4.5在计算机使用能力方面相比其前身也有显著提升。四个月前,Claude Sonnet 4在OSWorld上的得分为42.2%,而新版本将这一分数提高到了61.4%。这些能力被应用于Anthropic的Claude for Chrome扩展中,类似于OpenAI的ChatGPT Agent,Claude的扩展能够以不同程度的成功导航网站、填写电子表格和完成其他基于浏览器的任务。

持续专注:AI长期任务处理的新范式

Sonnet 4.5最引人注目的特性之一是其长时间保持专注的能力。在AI领域,模型在长时间运行时往往会失去连贯性,这是因为错误会累积,而上下文窗口(模型的短期记忆)会填满。

"这不仅仅是关于模型能够运行多长时间,"AI伦理专家陈静博士指出,"而是关于模型在长时间运行中保持一致性和准确性的能力。这对于需要AI持续工作数小时甚至数天的实际应用至关重要。"

Anthropic使用这一能力开发了Claude Code 2.0,这是一个面向开发人员的命令行AI代理,以及Claude Agent SDK,这是一个开发人员可以用来构建自己的AI编码代理的工具。这些工具利用了Sonnet 4.5的长期专注能力,为开发人员提供了更强大的编程助手。

行业影响:重新定义AI助手的标准

Sonnet 4.5的发布对AI行业产生了深远影响。首先,它设定了新的标准,特别是在编码和计算机使用领域。其次,它展示了AI模型在长时间任务处理方面的潜力,这可能会催生全新的应用场景。

"AI公司特别执着于软件开发基准测试,作为AI助手能力的证明,"行业分析师赵明解释道,"因为在其他领域的进展难以客观衡量,而且这是一个LLM(大型语言模型)相比其他可能受到幻觉困扰的领域显示出高实用性的领域。"

然而,值得注意的是,AI基准测试容易被操纵、设计不良或受到数据集污染(模型无意中在基准测试中训练了答案)的影响。因此,在得到独立验证之前,对这些基准测试结果持谨慎态度总是明智的。尽管如此,Sonnet 4.5似乎代表了从4.0版本的一次实质性飞跃,考虑到Anthropic历史上一直能够交付能力更强的模型,我们没有特别的理由怀疑这一点。

独立验证:专家视角下的Sonnet 4.5

独立专家对Sonnet 4.5的评价也相当积极。资深软件开发人员和Ars Technica的AI模型独立专家视角经常提供者Simon Willison今天在他的博客上撰文讨论了Sonnet 4.5。他似乎总体上印象深刻:"Anthropic本周末给了我一个'新模型'的预览版本,结果是Sonnet 4.5,"他写道,"我的初步印象是,它感觉比GPT-5-Codex更适合代码,而GPT-5-Codex自几周前推出以来一直是我的首选编码模型。这个领域发展得如此之快——Gemini 3据说即将推出,谁知道Sonnet 4.5将能保持'最佳编码模型'的桂冠多久。"

安全与伦理:减少AI的负面行为

在技术进步的同时,Sonnet 4.5在安全与伦理方面也取得了进展。Anthropic声称,与之前的模型相比,Claude Sonnet 4.5显示出减少的"谄媚、欺骗、权力寻求和鼓励妄想思维倾向"。谄媚(sycophancy)特别是指AI模型倾向于赞扬用户的想法,即使这些想法是错误的或潜在危险的。

"在人们越来越依赖聊天机器人进行远不止编码协助的今天,减少谄媚的努力是受欢迎的消息,"伦理学家刘芳博士指出,"这表明AI开发公司正在认真对待模型行为对用户的影响。"

尽管如此,我们仍然可以质疑Anthropic如何通过明确的人类学视角来描述某些AI输出行为,但总的来说,在一个越来越依赖聊天机器人的世界里,减少谄媚的努力是值得欢迎的。

实用功能:开发者工具的全面升级

除了核心模型能力的提升外,Claude家族的一些辅助功能也获得了今天的升级。例如,Anthropic直接在Claude的网页界面和专用应用对话中添加了代码执行和文件创建功能。沿着这些思路,用户现在可以在不离开聊天界面的情况下生成电子表格、幻灯片和文档。

Available Anthropic AI models for Claude Max users

该公司还发布了一个名为"Imagine with Claude"的五天研究预览,供Max订阅者使用,该演示展示了模型实时生成软件。Anthropic将其描述为"当与适当基础设施结合时,展示Claude Sonnet 4.5能做什么的有趣演示"。

如上所述,命令行开发工具Claude Code今天也获得了几个更新,与新模型一起发布。该公司添加了保存进度并允许用户回滚到先前状态的检查点,刷新了终端界面,并发布了原生的VS Code扩展。Claude API还获得了新的上下文编辑功能和处理更长时间运行的代理任务的内存工具。

定价与可用性:保持竞争力的策略

Claude 4.5今天已经在所有地方可用。通过API,该模型保持了与Claude Sonnet 4相同的价格,即每百万输入 token 3美元,每百万输出 token 15美元。开发人员可以使用"claude-sonnet-4-5"作为模型标识符,通过Claude API访问它。

"这种定价策略表明,Anthropic希望通过提供更具成本效益的解决方案来扩大其用户基础,"市场分析师黄强表示,"考虑到Sonnet 4.5的性能提升,这是一个相当有竞争力的价格点。"

未来展望:AI助手的发展方向

Sonnet 4.5的发布不仅是对现有技术的改进,也为AI助手的未来发展指明了方向。随着AI模型在长时间任务处理、编码能力和计算机使用等方面的不断提升,我们可以预见AI助手将在更多领域发挥重要作用。

"未来的AI助手将不仅仅是回答问题或生成文本的工具,"技术预测专家周明博士指出,"它们将成为能够自主完成复杂任务、持续学习并适应新环境的智能伙伴。Sonnet 4.5展示了这一未来的某些方面。"

挑战与机遇:AI发展的双面性

尽管Sonnet 4.5展示了令人印象深刻的能力,但AI领域仍然面临诸多挑战。其中包括确保AI系统的安全性、可靠性、公平性和透明度。同时,随着AI能力的提升,我们也需要考虑其对就业市场、隐私和社会结构的影响。

"AI的发展就像一把双刃剑,"社会学家陈华表示,"它带来了巨大的机遇,但也伴随着责任。我们需要确保AI的发展是以人为本的,符合伦理和社会价值观。"

结论:迈向更强大的AI助手

Claude Sonnet 4.5的代表了AI技术的一个重要里程碑,特别是在长时间任务处理和编码能力方面。通过展示前所未有的专注力、卓越的编码性能和改进的计算机使用能力,Sonnet 4.5重新定义了AI助手的可能性边界。

随着AI技术的不断发展,我们可以期待看到更多像Sonnet 4.5这样的创新,它们将继续推动AI在各个领域的应用,同时也带来新的挑战和机遇。在这个快速发展的领域中,只有那些能够平衡技术创新与伦理考量的公司,才能真正引领AI的未来发展。