在人工智能快速发展的今天,Anthropic公司正式发布了其最新旗舰模型——Claude Sonnet 4.5,这一模型在编程能力、计算机使用、推理和数学计算等多个关键领域实现了重大突破。作为目前世界上最强的编程模型,Sonnet 4.5不仅能够构建复杂的智能代理,还在计算机使用能力方面表现出色,同时展现出在推理和数学方面的显著提升。
编程能力的全新高度
Claude Sonnet 4.5在SWE-bench Verified评估中取得了令人瞩目的成绩,该评估专门衡量AI模型在真实世界软件编码能力方面的表现。从实践角度来看,我们观察到Sonnet 4.5能够在复杂的多步骤任务中保持专注超过30小时,这一能力对于长时间、高复杂度的编程任务具有重要意义。
在计算机使用方面,Claude Sonnet 4.5实现了质的飞跃。在OSWorld基准测试中——这一测试专门评估AI模型在真实世界计算机任务上的表现——Sonnet 4.5目前以61.4%的准确率领先。仅仅四个月前,Sonnet 4的领先分数为42.2%。这一显著提升表明Claude在直接操作计算机系统方面已经达到了前所未有的水平。
多领域专业知识的全面提升
Claude Sonnet 4.5不仅在编程领域表现出色,还在推理和数学能力方面实现了广泛提升。通过多项评估测试,该模型展现出超越以往版本的强大能力,包括在金融、法律、医学和STEM等领域的专业知识大幅提升。
在金融领域,Claude Sonnet 4.5能够进行复杂的投资分析,提供需要较少人工审查的投资级见解。当深度比速度更重要时,它为机构金融带来了有意义的进步。
在法律领域,该模型能够处理最复杂的诉讼任务,例如分析完整的简报周期并进行研究,为法官撰写优秀的意见草案初稿,或者审查整个诉讼记录以创建详细的即决判决分析。
医学和STEM领域的专家发现,与包括Opus 4.1在内的旧模型相比,Sonnet 4.5在特定领域知识和推理方面显示出显著更好的表现。
开发者工具的重大升级
随着Claude Sonnet 4.5的发布,Anthropic还推出了一系列重大产品升级。在Claude Code中,添加了检查点功能——这是用户最常要求的功能之一,可以保存进度并允许立即回退到之前的状态。同时,终端界面已刷新,并推出了原生的VS Code扩展。
Claude API新增了上下文编辑功能和记忆工具,使代理能够运行更长时间并处理更大的复杂性。在Claude应用中,代码执行和文件创建(电子表格、幻灯片和文档)功能已直接集成到对话中。此外,上个月加入等待列表的Max用户现在可以使用Claude for Chrome扩展。
Claude Agent SDK:构建智能代理的基础设施
Anthropic还向开发者提供了他们自己用于构建Claude Code的基础组件,这被称为Claude Agent SDK。支持前沿产品的基础设施——使它们能够充分发挥潜力——现在可供开发者使用。
"我们花费了超过六个月的时间更新Claude Code,因此我们知道构建和设计AI代理需要什么,"Anthropic的工程师表示,"我们已经解决了难题:代理应该如何在长时间运行的任务中管理内存,如何平衡自主性与用户控制的权限系统,以及如何协调朝着共同目标工作的子代理。"
Claude Agent SDK是支持Claude Code的相同基础设施,但它对各种任务都显示出显著优势,而不仅仅是编程。从今天开始,开发者可以使用它来构建自己的代理。
安全与对齐的重大进展
作为迄今为止最对齐的前沿模型,Claude Sonnet 4.5在多个对齐领域相比之前的Claude模型显示出重大改进。Claude改进的能力和广泛的安全训练使团队能够显著改善模型行为,减少奉承、欺骗、权力寻求和鼓励妄想思维等令人担忧的行为。
对于模型的代理和计算机使用能力,团队在防御提示注入攻击方面也取得了重大进展,这是这些功能用户最严重的风险之一。
Claude Sonnet 4.5根据Anthropic的框架,在AI安全级别3(ASL-3)保护下发布,该框架将模型能力与适当的安全保障相匹配。这些保障包括称为分类器的过滤器,旨在检测潜在危险的输入和输出——特别是与化学、生物、放射性和核(CBRN)武器相关的内容。
客户实践中的卓越表现
Claude Sonnet 4.5的能力在早期客户的使用体验中也得到了充分体现。多家领先企业的技术负责人分享了他们的使用体验,证实了该模型在复杂任务中的出色表现。
Cursor的CEO表示:"我们从Claude Sonnet 4.5看到了最先进的编码性能,在更长周期的任务上有显著改进。这强化了为什么许多使用Cursor的开发者选择Claude来解决他们最复杂的问题。"
GitHub的首席产品官指出:"Claude Sonnet 4.5增强了GitHub Copilot的核心优势。我们的初步评估显示,在多步推理和代码理解方面有显著改进——使Copilot的代理体验能够更好地处理复杂、跨越整个代码库的任务。"
GenAI开发者生产力技术负责人Eric Wendelin评价道:"Claude Sonnet 4.5在软件开发任务方面表现出色,能够学习我们的代码库模式以提供精确的实现。它从调试到架构都能处理,具有深刻的上下文理解,彻底改变了我们的开发速度。"
在安全领域,Hai安全代理的平均漏洞接收时间减少了44%,同时准确性提高了25%,帮助企业以信心降低风险。
想象与创新的实验:Imagine with Claude
alongside Claude Sonnet 4.5,Anthropic还发布了一个名为"Imagine with Claude"的临时研究预览。在这个实验中,Claude实时生成软件。没有预先确定的功能;没有预写的代码。您看到的是Claude实时创建,响应并适应您在交互过程中的请求。
"这是一个有趣的演示,展示了Claude Sonnet 4.5能够做什么——展示了当您将强大的模型与合适的基础设施相结合时可以实现什么,"Anthropic的团队解释道。
"Imagine with Claude"将在未来五天内提供给Max订阅用户。团队鼓励用户在claude.ai/imagine上试用这一功能。
技术细节与评估方法
Claude Sonnet 4.5在SWE-bench Verified评估中报告了77.2%的分数,这是在10次试验、无测试时间计算和整个500个问题的SWE-bench Verified数据集上使用200K思考预算平均得出的。使用1M上下文配置可以达到78.2%的分数,但由于最近的推理问题,团队报告200K结果作为主要分数。
在"高计算"数字中,团队采用了额外的复杂性和并行测试时间计算:采样多个并行尝试,丢弃在存储库中破坏可见回归测试的补丁,然后使用内部评分模型从剩余尝试中选择最佳候选。这导致Sonnet 4.5的得分为82.0%。
升级建议与未来展望
Anthropic建议所有用户升级到Claude Sonnet 4.5。无论用户是通过应用、API还是Claude Code使用Claude,Sonnet 4.5都是一个即插即用的替代品,以相同的价格提供显著改进的性能。Claude Code更新对所有用户可用。Claude开发者平台更新,包括Claude Agent SDK,对所有开发者可用。代码执行和文件创建在Claude应用的所有付费计划中可用。
对于完整的技术细节和评估结果,用户可以查看Anthropic的系统卡片、模型页面和文档。有关更多信息,可以探索其工程文章和研究文章。
Claude Sonnet 4.5的发布不仅代表了AI编程能力的新高度,也为开发者提供了构建更强大、更安全AI应用的基础设施。随着这一技术的不断发展和完善,我们可以期待看到更多创新应用的出现,推动人工智能技术在各个领域的深入应用。
结语
Claude Sonnet 4.5的发布标志着AI编程技术进入了一个新阶段。它在保持安全对齐的同时,显著提升了编程能力、计算机使用能力和多领域专业知识。通过Claude Agent SDK,Anthropic不仅提供了强大的工具,还开放了构建未来AI应用的基础架构。这一突破不仅将改变开发者的工作方式,也将为整个AI行业的发展树立新的标杆。