在人工智能技术飞速发展的今天,Anthropic公司正式发布了其最新旗舰模型——Claude Sonnet 4.5,这一模型不仅被誉为全球最强大的编程模型,更在复杂代理构建和计算机使用方面展现出前所未有的能力。作为Claude系列的重要更新,Sonnet 4.5在推理和数学能力上实现了显著提升,为现代工作方式带来了革命性的变化。
前沿性能的全面突破
Claude Sonnet 4.5在多个关键评估指标上展现出行业领先的性能。在SWE-bench Verified这一衡量实际软件编码能力的评估中,Sonnet 4.5达到了最先进水平。在实际应用中,该模型能够在复杂的多步骤任务中保持超过30小时的专注度,这一能力对于处理长期、复杂的编程项目具有重要意义。
在计算机使用方面,Sonnet 4.5同样实现了质的飞跃。在OSWorld这一测试AI模型在真实计算机任务表现的基准测试中,Sonnet 4.5以61.4%的得分领先,而仅仅四个月前,Sonnet 4的得分为42.2%。这一提升幅度反映了模型在真实世界计算机操作能力上的显著进步。
除了编程和计算机使用能力外,Sonnet 4.5在推理和数学等多个评估领域也展现出显著提升。这一全面的性能提升使Sonnet 4.5成为Anthropic迄今为止最强大的模型,为用户提供了前所未有的智能支持。
专业领域的深度应用
Claude Sonnet 4.5在多个专业领域展现出令人印象深刻的能力。根据来自金融、法律、医学和STEM领域的专家评估,Sonnet 4.5在这些专业领域的知识和推理能力相比之前的模型(包括Opus 4.1)有了显著提升。
金融领域的突破
在金融领域,Sonnet 4.5能够提供投资级别的洞察,减少人工审查的需求。对于复杂的金融分析任务,如风险评估、结构化产品和投资组合筛选,该模型展现出卓越的分析能力,为机构金融带来了有意义的进步。
法律领域的革新
法律专业人士报告称,Sonnet 4.5在最复杂的诉讼任务中处于行业领先地位。例如,它能够分析完整的简报周期并进行研究,为法官起草优秀的意见书初稿,或者审查整个诉讼记录以创建详细的即决动议分析。
医学研究的助力
在医学领域,Sonnet 4.5展现出对复杂医学数据的深度理解和分析能力,能够辅助医学研究人员进行数据分析和研究设计,加速医学发现的过程。
STEM领域的创新
在科学、技术、工程和数学领域,Sonnet 4.5能够处理复杂的计算任务和科学模拟,为研究人员提供强大的计算支持和创新思路。
客户案例:实际应用中的卓越表现
多家领先企业和组织已经开始使用Claude Sonnet 4.5,并报告了显著的性能提升和效率改进。
Cursor开发团队
"我们正在从Claude Sonnet 4.5看到最先进的编码性能,在更长周期的任务上有显著改进。这强化了许多使用Cursor的开发者选择Claude来解决最复杂问题的原因。"
——Michael Truell,CEO
GitHub团队
"Claude Sonnet 4.5增强了GitHub Copilot的核心优势。我们的初步评估显示,在多步推理和代码理解方面有显著改进——使Copilot的代理体验能够更好地处理复杂、跨代码库的任务。"
——Mario Rodriguez,首席产品官
GenAI开发团队
"Claude Sonnet 4.5在软件开发任务方面表现出色,学习我们的代码库模式以提供精确的实现。它从调试到架构都能以深度的上下文理解处理一切,彻底改变了我们的开发速度。"
——Eric Wendelin,开发者生产力AI技术主管
Hai安全团队
"Claude Sonnet 4.5将我们Hai安全代理的平均漏洞接收时间减少了44%,同时将准确性提高了25%,帮助我们以信心降低企业的风险。"
——Nidhi Aggarwal,首席产品官
CoCounsel法律团队
"Claude Sonnet 4.5在最复杂的诉讼任务中处于最先进水平。例如,分析完整的简报周期并进行研究,为法官起草优秀的意见书初稿,或者审查整个诉讼记录以创建详细的即决动议分析。"
——Pablo Arredondo,副总裁
Michele Catasta团队
"Claude Sonnet 4.5的编辑功能非常出色——我们在Sonnet 4上的内部代码编辑基准测试错误率从9%降至0%。在更低成本下实现更高的工具成功率是代理编码的重大飞跃。Claude Sonnet 4.5完美地平衡了创造力和控制力。"
——Michele Catasta,总裁
Canva设计平台
"Claude Sonnet 4.5在我们最复杂的长上下文任务上带来了令人印象深刻的提升——从我们代码库中的工程到产品功能和研发。它明显更加智能,是一次巨大的飞跃,帮助我们推动2.4亿+用户使用Canva进行设计。"
——Danny Wu,AI产品主管
Figma设计工具
"在早期测试中,Claude Sonnet 4.5明显改进了Figma Make,使提示和迭代更容易。团队可以使用更功能化的原型和更流畅的交互来探索和验证他们的想法,同时仍然获得Figma以设计质量而闻名的能力。"
——David Kossnick,AI产品主管
Devin自动化平台
"对于Devin,Claude Sonnet 4.5将规划性能提高了18%,端到端评估分数提高了12%——这是我们自Claude Sonnet 3.6发布以来看到的最大飞跃。它擅长测试自己的代码,使Devin能够运行更长时间、处理更难的任务,并提供生产就绪的代码。"
——Scott Wu,联合创始人兼CEO
安全研究团队
"Claude Sonnet 4.5在红队测试方面显示出强大的潜力,能够生成创造性的攻击场景,加速我们研究攻击者技巧的过程。这些见解增强了我们在终端、身份、云、数据、SaaS和AI工作负载方面的防御能力。"
——Sven Krasser,数据科学高级副总裁兼首席科学家
复杂项目开发团队
"Claude Sonnet 4.5重新设定了我们的期望——它可以处理30+小时的自主编码,让我们的工程师在大大减少的时间内完成数月的复杂架构工作,同时保持对大型代码库的一致性。"
——Sean Ward,CEO兼联合创始人
金融分析团队
"对于复杂的金融分析——风险、结构化产品、投资组合筛选——Claude Sonnet 4.5与思考功能相结合提供了需要较少人工审查的投资级洞察。当深度比速度更重要时,这是机构金融的有意义一步。"
——Stian Kirkeberg,AI和机器学习主管
安全与对齐的显著进步
作为Anthropic迄今为止最对齐的前沿模型,Claude Sonnet 4.5在安全性和对齐方面取得了显著进展。模型能力的提升和广泛的安全训练使模型行为得到了实质性改进,减少了奉承、欺骗、权力寻求和鼓励妄想思维等令人担忧的行为。
对于模型的代理和计算机使用能力,Anthropic在防御提示注入攻击方面也取得了重大进展,这是这些功能用户面临的最严重风险之一。
Claude Sonnet 4.5根据Anthropic的框架,在AI安全级别3(ASL-3)保护下发布,该框架将模型能力与适当的安全保障措施相匹配。这些保障措施包括称为分类器的过滤器,旨在检测潜在的危险输入和输出——特别是与化学、生物、放射性和核(CBRN)武器相关的内容。
这些分类器有时可能会无意中标记正常内容。Anthropic使用户能够轻松地使用Sonnet 4继续任何被中断的对话,这是一个CBRN风险较低的模型。自最初描述这些分类器以来,Anthropic在减少误报方面已经取得了显著进展,将其减少了十倍,自5月Claude Opus 4发布以来减少了两倍。
Claude Agent SDK:开发者工具的革命
经过六个多月对Claude Code的更新,Anthropic已经了解了构建和设计AI代理所需的技术。他们解决了难题:代理应如何管理跨长时间运行任务的内存,如何处理在自主性与用户控制之间取得平衡的权限系统,以及如何协调为实现共同目标而工作的子代理。
现在,Anthropic将所有这些功能提供给开发者使用。Claude Agent SDK是支持Claude Code的相同基础设施,但它对各种任务(不仅仅是编码)显示出令人印象深刻的好处。从今天起,开发者可以使用它构建自己的代理。
Anthropic构建Claude Code是因为他们想要的工具当时还不存在。Agent SDK为开发者提供了相同的构建基础,可以为他们正在解决的任何问题构建同样强大的功能。
创新功能与应用场景
Claude Sonnet 4.5的发布伴随着多项重大功能升级,为用户带来更强大的工作体验。
Claude Code的全面升级
在Claude Code中,Anthropic添加了检查点功能——这是用户最请求的功能之一,可以保存进度并允许立即回滚到之前的状态。他们还更新了终端界面,并发布了原生的VS Code扩展。此外,新的上下文编辑功能和内存工具被添加到Claude API中,使代理能够运行更长时间并处理更大的复杂性。
应用程序的直接集成
在Claude应用程序中,代码执行和文件创建(电子表格、幻灯片和文档)功能被直接集成到对话中。这使用户能够在不离开对话环境的情况下完成各种任务,大大提高了工作效率。
Chrome扩展的普及
Claude for Chrome扩展现在已对上月加入等待列表的Max用户可用。这一扩展将Sonnet 4.5的升级能力直接带到浏览器环境中,使用户能够直接在浏览器中工作,导航网站、填写电子表格和完成任务。
"Imagine with Claude"研究预览
alongside Claude Sonnet 4.5,Anthropic还发布了一个名为"Imagine with Claude"的临时研究预览。在这个实验中,Claude实时生成软件。没有预定的功能;没有预写的代码。用户看到的是Claude实时创建,响应用户的请求并适应交互过程。
这是一个有趣的演示,展示了Claude Sonnet 4.5的能力——展示了当将强大的模型与正确的基础设施相结合时可以实现什么。"Imagine with Claude"在未来五天内对Max订阅者可用。
技术细节与评估方法
Claude Sonnet 4.5在多个基准测试中表现出色,以下是一些关键评估的详细方法:
SWE-bench Verified评估
所有Claude结果都使用简单的脚手架报告,包含两个工具——通过字符串替换进行bash和文件编辑。我们报告77.2%的分数,这是在10次试验、无测试时间计算和整个500问题SWE-bench Verified数据集上200K思考预算的平均值。
OSWorld评估
所有报告的分数都使用官方的OSWorld-Verified框架,最大100步,在4次运行中平均。
金融代理评估
所有报告的分数都由Vals AI在其公共排行榜上运行和发布。所有报告的Claude模型结果都使用扩展思考(最多64K),并且Sonnet 4.5报告使用交错思考。
升级建议与未来展望
Anthropic建议所有用户升级到Claude Sonnet 4.5。无论用户是通过应用程序、API还是Claude Code使用Claude,Sonnet 4.5都是一个即插即用的替代品,在相同价格下提供显著改进的性能。Claude Code更新对所有用户可用。Claude Developer Platform更新,包括Claude Agent SDK,对所有开发者可用。代码执行和文件创建在Claude应用程序的所有付费计划上可用。
对于完整的技术细节和评估结果,可以查看Anthropic的系统卡片、模型页面和文档。更多信息,可以探索他们的工程文章和研究文章。
Claude Sonnet 4.5的发布标志着AI编程能力的新里程碑,不仅为开发者提供了更强大的工具,也为人工智能在各领域的应用开辟了新的可能性。随着技术的不断进步,我们可以期待看到更多令人兴奋的创新和应用场景。









