在人工智能快速发展的今天,Anthropic公司推出的Claude Sonnet 4.5模型正重新定义业界对AI能力的认知。这一最新模型被公认为全球最强大的编程模型,在构建复杂智能代理、计算机操作、推理和数学能力等多个维度均取得突破性进展,标志着AI技术又向前迈出了坚实一步。
前沿智能性能
Claude Sonnet 4.5在SWE-bench Verified评估中表现卓越,该评估专门衡量真实世界软件编码能力。实际测试表明,该模型能够保持超过30小时的专注度,处理复杂的多步骤任务。这一持久的工作能力使其在长时间编程项目中展现出无与伦比的优势。
在计算机使用能力方面,Claude Sonnet 4.5同样实现了质的飞跃。在OSWorld基准测试中,该模型以61.4%的得分领先业界,而仅仅四个月前,Sonnet 4的领先成绩为42.2%。这种快速进步反映了Anthropic在模型训练和优化方面的卓越能力。Claude for Chrome扩展充分利用了这些升级后的能力,使AI能够直接在浏览器中工作,导航网站,填写电子表格并完成任务。
除了编程和计算机操作能力,Claude Sonnet 4.5在推理和数学等广泛领域的评估中也表现出色。这些综合能力的提升使其成为迄今为止Anthropic开发的最强大模型。
专业领域应用突破
金融、法律、医学和STEM领域的专家发现,与包括Opus 4.1在内的旧模型相比,Sonnet 4.5在特定领域知识和推理方面表现出显著改善。这种专业化的深度理解使其在各行各业的应用前景更加广阔。
早期客户的体验充分证明了Claude Sonnet 4.5的卓越性能。Cursor公司的CEO Michael Truell表示:"我们正在见证Claude Sonnet 4.5在编程性能方面达到最先进水平,在长期任务上取得显著进步。这强化了为什么许多使用Cursor的开发者选择Claude来解决他们最复杂的问题。"
GitHub的Chief Product Officer Mario Rodriguez也评价道:"Claude Sonnet 4.5增强了GitHub Copilot的核心优势。我们的初步评估显示,在多步推理和代码理解方面有显著改进——使Copilot的代理体验能够更好地处理跨代码库的复杂任务。"
在实际应用中,Claude Sonnet 4.5展现出了令人印象深刻的效果。例如,在安全领域,它将Hai安全代理的平均漏洞处理时间减少了44%,同时将准确性提高了25%。在法律领域,它能够分析完整的诉讼周期并进行研究,为法官综合优秀的意见初稿,或审问整个诉讼记录以创建详细的即决判决分析。
最具对齐性的模型
除了是最具能力的模型外,Claude Sonnet 4.5也是Anthropic迄今为止最具对齐性的前沿模型。Claude改进的能力和广泛的安全训练使Anthropic能够显著改善模型的行为,减少谄媚、欺骗、权力寻求和鼓励妄想思维等令人担忧的行为。对于模型的代理和计算机使用能力,Anthropic在防御提示注入攻击方面也取得了重大进展,这是这些能力用户面临的最严重风险之一。
Claude Sonnet 4.5在AI安全级别3(ASL-3)保护下发布,根据Anthropic的框架,将模型能力与适当的安全保障相匹配。这些保障包括称为分类器的过滤器,旨在检测潜在的危险输入和输出——特别是与化学、生物、放射性和核(CBRN)武器相关的输入和输出。
这些分类器有时可能会无意中标记正常内容。Anthropic使用户能够轻松地与Sonnet 4继续任何中断的对话,该模型具有较低的CBRN风险。自最初描述这些分类器以来,Anthropic已经在减少这些误报方面取得了重大进展,减少了十倍,自5月发布Claude Opus 4以来减少了两倍。Anthropic继续在使分类器更具辨别力方面取得进展。
Claude Agent SDK
Anthropic花费了六个多月的时间为Claude Code发布更新,因此他们知道构建和设计AI代理需要什么。他们解决了难题:代理应如何管理跨长期运行任务的内存,如何处理平衡自主性与用户控制的权限系统,以及如何协调朝共同目标工作的子代理。
现在,Anthropic将所有这些功能提供给用户。Claude Agent SDK是为Claude Code提供支持的相同基础设施,但它对各种任务都显示出令人印象深刻的优势,不仅仅是编程。从今天起,用户可以使用它来构建自己的代理。
Anthropic构建Claude Code是因为他们想要的工具还不存在。Agent SDK为用户提供了相同的基础,无论用户正在解决什么问题,都可以构建同样强大的解决方案。
研究预览版
Anthropic随Claude Sonnet 4.5一起发布了一个临时研究预览版,称为"Imagine with Claude"。在这个实验中,Claude实时生成软件。没有预定功能;没有预先编写的代码。用户看到的是Claude实时创建,根据用户的交互响应和适应请求。
这是一个有趣的演示,展示了Claude Sonnet 4.5能够做什么——当用户将一个有能力的模型与正确的基础设施结合时,可以看到什么是可能的。"Imagine with Claude"在未来五天内对Max订阅者开放。Anthropic鼓励用户在claude.ai/imagine上尝试。
行业影响与未来展望
Claude Sonnet 4.5的发布对AI行业产生了深远影响。它不仅提高了AI模型在编程和计算机使用方面的标准,还为各行业的专业人士提供了强大的工具来提高工作效率和解决复杂问题。
在软件开发领域,该模型能够学习代码库模式,提供精确的实现,处理从调试到架构设计的所有事情,具有深刻的上下文理解能力,彻底改变了开发速度。正如一位技术领导所言:"Claude Sonnet 4.5在软件工程任务上表现出色,学习我们的代码库模式以提供精确的实现。它处理从调试到架构设计的所有事情,具有深刻的上下文理解能力,改变了我们的开发速度。"
在金融分析领域,Claude Sonnet 4.5能够提供需要较少人工审查的投资级见解。正如一位AI和机器学习负责人所说:"对于复杂的金融分析——风险、结构性产品、投资组合筛选——具有思考能力的Claude Sonnet 4.5提供了需要较少人工审查的投资级见解。当深度比速度更重要时,这是机构金融的有意义的一步。"
随着AI技术的不断发展,Claude Sonnet 4.5代表了当前技术的前沿水平,同时也为未来的发展指明了方向。Anthropic通过这一模型展示了AI在提高人类生产力、解决复杂问题和推动各行业创新方面的巨大潜力。
对于开发者和企业用户来说,Claude Sonnet 4.5的发布意味着他们现在可以以相同的价格获得大幅提升的性能。无论是通过Anthropic的应用程序、API还是Claude Code使用Claude,Sonnet 4.5都是一个即插即用的替代品,提供了更好的性能。Claude Code更新对所有用户可用。Claude Developer Platform更新,包括Claude Agent SDK,对所有开发者可用。代码执行和文件创建在Claude应用程序的所有付费计划上可用。









