Claude Sonnet 4.5:30小时专注力挑战AI新纪元

1

在人工智能技术飞速发展的今天,Anthropic公司推出的Claude Sonnet 4.5模型犹如一股清流,不仅展示了令人瞩目的技术突破,更在AI模型的核心能力上树立了新的标杆。这款被Anthropic称为"迄今为止最强大的模型",以其惊人的30小时持续专注力和卓越的编程能力,正在重新定义人们对AI系统性能的认知。

突破性专注力:30小时持续工作的AI奇迹

Anthropic最新发布的Claude Sonnet 4.5最引人注目的特性之一是其能够在复杂多步骤任务中保持专注超过30小时。这一成就标志着AI模型在长时间运行 coherence 方面取得了重大突破。过去,AI代理模型在长时间运行后,由于错误累积和上下文窗口(模型的短期记忆)填满,通常会逐渐失去连贯性。

这一突破性进展意味着AI系统现在可以处理需要长时间专注的复杂任务,如大型软件开发项目、持续的数据分析或需要多阶段决策的业务流程。想象一下,一个AI系统能够不间断地工作超过一天,保持对任务的一致理解和执行能力,这将极大地扩展AI在实际应用中的可能性。

Claude Sonnet 4.5专注力展示

Claude Sonnet 4.5在Claude网页界面中的介绍卡片,展示了其持续专注能力

技术架构解析:为什么Sonnet 4.5如此特别?

要理解Sonnet 4.5的技术优势,我们需要了解Anthropic在AI模型架构上的独特设计理念。传统上,Anthropic在Claude家族中提供三种不同规模的AI模型:Haiku(最小)、Sonnet(中等范围)和Opus(最大)。这种分层设计使Anthropic能够为不同应用场景提供最优的性能-成本平衡。

Sonnet系列在Anthropic的产品线中扮演着至关重要的角色,它已经很好地承担了这一角色两年多。Sonnet 4.5的推出标志着这一系列的又一次重大升级,在保持合理运行成本的同时,提供了接近顶级模型的性能表现。

模型规模(以神经网络中存储的参数数量衡量)通常与整体上下文深度(概念间多维连接的数量,可称为"知识")和更好的问题解决能力成正比,但较大的模型运行速度较慢且成本更高。Sonnet 4.5正是在这一平衡点上找到了最佳位置,为开发者提供了强大的功能而不至于过于昂贵或缓慢。

编程能力新标杆:超越行业巨头

Anthropic自信地宣称:"Claude Sonnet 4.5是世界上最好的编程模型"。这一声明得到了基准测试数据的强力支持。Sonnet 4.5在SWE-bench Verified基准测试中取得了77.2%的分数,该基准测试旨在衡量AI模型的实际软件编码能力。同时,它目前在OSWorld基准测试中以61.4%的分数领先,该测试评估AI模型在真实计算机任务上的表现。

这些成绩超越了OpenAI的GPT-5 Codex(74.5%)和Google的Gemini 2.5 Pro(67.2%),确立了Sonnet 4.5在编程领域的领先地位。对于依赖AI辅助开发的软件工程师来说,这一突破意味着更高效的代码生成、更准确的bug修复以及更强大的项目重构能力。

Claude Sonnet 4.5基准测试结果

Anthropic测量和报告的Claude Sonnet 4.5基准测试结果,展示了其在多个评估领域的优异表现

计算机使用能力的显著飞跃

除了编程能力外,Sonnet 4.5还展现出显著的计算机使用能力提升。四个月前,Claude Sonnet 4在OSWorld上的得分为42.2%,而新版本将这一分数提升至61.4%,这是一个近45%的相对提升。

这些能力被整合到Anthropic的Claude for Chrome扩展中,类似于OpenAI的ChatGPT Agent。Claude的扩展能够导航网站、填写电子表格并完成其他基于浏览器的任务,尽管成功程度各异。这种计算机使用能力使AI能够直接与用户界面交互,大大扩展了其应用范围。

多领域全面评估:数学、语言与金融

Sonnet 4.5的卓越表现不仅限于编程和计算机使用。在多个其他评估中,该模型也显示出显著进步:

  • 在AIME 2024(数学竞赛基准)中表现优异
  • 在MMMLU测试中,该模型在14种非英语学科知识方面表现出色
  • 在Vals AI的金融代理基准测试中,Sonnet 4.5取得了92%的优异成绩,该基准测试"测试代理执行初级金融分析师预期任务的能力"

这些多元化的评估结果表明,Sonnet 4.5不仅是一个专业的编程工具,更是一个具备广泛知识深度和推理能力的通用AI系统。

开发者工具生态:Claude Code 2.0与Agent SDK

与Sonnet 4.5一同发布的还有多项开发者工具,进一步丰富了Anthropic的AI开发生态:

  1. Claude Code 2.0:面向开发者的命令行AI代理
  2. Claude Agent SDK:开发者可用于构建自己的AI编码代理的工具套件
  3. 更新的Claude API:包含新的上下文编辑功能和处理长时间运行代理任务的内存工具

这些工具的发布表明Anthropic正在构建一个完整的AI开发生态系统,而不仅仅是提供单一的AI模型。开发者可以通过这些工具更轻松地将Sonnet 4.5的能力集成到自己的工作流程中。

安全与伦理:减少谄媚与欺骗行为

在AI能力不断提升的同时,安全性问题也日益凸显。Anthropic特别强调,与之前的模型相比,Sonnet 4.5显示出减少的"谄媚、欺骗、权力寻求和鼓励妄想思维"的倾向。

谄媚行为(sycophancy)是AI模型倾向于赞美用户想法的倾向,即使这些想法是错误的或潜在危险的。减少这种行为对于提高AI系统的可靠性和安全性至关重要,特别是在用户越来越依赖AI进行远不止编程辅助的广泛任务的情况下。

尽管Anthropic通过明显的人类学视角来描述某些AI输出行为的方式可能值得商榷,但总体而言,减少谄媚行为的尝试在这个越来越依赖聊天机器人进行远不止编程辅助的世界中是受欢迎的进展。

实际应用场景:从代码生成到实时软件开发

Sonnet 4.5的能力在实际应用中展现出巨大潜力:

  • 代码生成与优化:能够理解复杂的代码库,提供高质量的代码建议和优化方案
  • 长时间项目开发:30小时的专注能力使AI能够参与需要持续投入的大型项目
  • 跨平台开发:多语言处理能力使其能够处理不同编程环境和框架
  • 金融分析:92%的金融代理基准测试得分表明其在金融数据处理和分析方面的潜力

Claude Max用户界面

Claude网页界面中为Claude Max用户提供的可用Anthropic AI模型截图

市场定位与价格策略

Claude 4.5现已全面推出,通过API访问时,模型保持与Claude Sonnet 4相同的价格:每百万输入token 3美元,每百万输出token 15美元。开发者可以通过Claude API使用"claude-sonnet-4-5"作为模型标识符访问该模型。

这一价格策略表明Anthropic试图在保持竞争力的同时,确保其AI模型的可持续发展和盈利能力。与市场上其他高端AI模型相比,Sonnet 4.5提供了颇具吸引力的性价比。

未来展望:AI技术发展的新方向

Simon Willison,一位资深软件开发人员和Ars Technica的AI模型独立专家视角的经常来源,在他的博客上写道:"这个领域发展如此之快——Gemini 3据说即将推出,谁知道Sonnet 4.5将能保持'最佳编程模型'的桂冠多久。"

这反映了AI技术发展的快速迭代特性。尽管Sonnet 4.5目前处于领先地位,但竞争者们已经在紧随其后。然而,Sonnet 4.5的推出确实标志着AI技术在专注力、编程能力和多任务处理方面取得了重大进展。

结论:重新定义AI能力的边界

Claude Sonnet 4.5的推出不仅代表了Anthropic在AI技术上的又一次突破,更重新定义了人们对AI系统性能的认知。30小时的持续专注能力、卓越的编程表现以及多领域的优异评估,共同构建了一个强大而全面的AI系统。

随着AI技术在各行各业的深入应用,像Sonnet 4.5这样的模型不仅提高了开发效率,也为解决复杂问题提供了新的可能性。同时,减少谄媚行为和提高安全性的努力,也表明AI技术的发展正在朝着更加负责任和可靠的方向前进。

在未来,我们可以期待看到更多基于Sonnet 4.5的创新应用,以及AI技术在专注力、推理能力和实际应用方面的进一步突破。Anthropic的这一最新成果,无疑为AI技术的发展树立了新的标杆,也为整个行业指明了前进的方向。