网络安全领域正经历一场由AI技术驱动的深刻变革。过去几年中,我们见证了AI模型从理论概念到实用工具的转变,特别是在网络安全防御方面取得了显著进展。随着攻击者开始利用AI技术扩大其影响范围,防御者同样需要借助AI工具来保持优势。Claude Sonnet 4.5的推出标志着这一领域的重要突破,它在代码漏洞检测、分析和修复方面的能力已经达到了前所未有的水平。
AI网络安全防御的关键转折点
经过多年的跟踪研究,我们观察到AI模型在网络安全相关能力上发生了质的飞跃。早期的AI模型在执行高级网络安全任务时能力有限,但近一年多来,情况发生了显著变化。我们通过多个实验证明了AI在网络安全领域的实用价值:
- 成功模拟了史上代价最高的网络攻击之一——2017年Equifax数据泄露事件
- 在网络安全竞赛中,Claude的表现有时甚至超过了专业的人类团队
- 帮助我们发现并修复了自身代码中的漏洞,在产品发布前消除了安全隐患
在2025年夏季的DARPA AI网络安全挑战赛中,各团队使用大型语言模型(包括Claude)构建了"网络推理系统",检查数百万行代码中的漏洞并进行修复。除了预先插入的漏洞外,团队还发现并修复了一些之前未被发现的、非合成的真实漏洞。在竞赛之外,其他前沿实验室也开始应用AI模型来发现和报告新的漏洞。
与此同时,我们的保障团队发现并破坏了利用AI扩大其运营规模的网络威胁行为者。最近,我们发现了一起"氛围黑客"事件,网络犯罪分子使用Claude构建了一个大规模的数据勒索计划,这项工作在过去通常需要一个完整的团队才能完成。保障团队还检测并应对了Claude在日益复杂的间谍活动中的使用,包括针对关键电信基础设施的行动,这些行动表现出与中国APT组织一致的特征。
这些证据共同表明,我们正处于网络安全生态系统的重要转折点,未来的进展可能会非常迅速或使用规模会快速增长。
Claude Sonnet 4.5:强化网络安全能力
随着大型语言模型规模的扩大,"涌现能力"——那些在小规模模型中不明显且不一定是模型训练明确目标的技能——开始出现。事实上,Claude执行网络安全任务(如在夺旗挑战中查找和利用软件漏洞)的能力,一直是开发通用AI助手过程中的副产品。
但我们不愿仅仅依靠通用模型的进步来更好地装备防御者。由于AI和网络安全发展这一时刻的紧迫性,我们专门投入研究人员提升Claude在关键技能方面的表现,如代码漏洞发现和修复。
Claude Sonnet 4.5正是这项工作的成果。它在许多网络安全方面与Claude Opus 4.1相当或更优,同时成本更低、速度更快。
评估证据
在构建Sonnet 4.5的过程中,我们组建了一个小型研究团队,专注于增强Claude在代码库中发现漏洞、修复漏洞以及在模拟部署的安全基础设施中测试弱点的能力。我们选择这些任务是因为它们反映了防御者的重要工作。我们刻意避免那些明显有利于攻击性工作的增强功能——如高级漏洞利用或编写恶意软件。我们希望模型能够在代码部署前发现不安全代码,并找到和修复已部署代码中的漏洞。
为了测试我们研究的效果,我们运行了行业标准的模型评估。这些评估 enables clear comparisons across models, measures the speed of AI progress, and—especially in the case of novel, externally developed evaluations—provides a good metric to ensure that we are not simply teaching to our own tests.
在运行这些评估时,一个突出特点是多次运行的重要性。即使对于大量评估任务来说计算成本很高,但它能更好地捕捉到有动力的攻击者或防御者在任何特定现实世界问题上的行为。这样做不仅揭示了Claude Sonnet 4.5的出色表现,也揭示了几代以前的模型的出色表现。
Cybench评估
我们跟踪了一年多的评估之一是Cybench,这是一个源自夺旗竞赛挑战的基准。在这一评估中,我们看到Claude Sonnet 4.5取得了显著改进,不仅超越了Claude Sonnet 4,甚至超越了Claude Opus 4和4.1模型。也许最引人注目的是,Sonnet 4.5在一次尝试中成功的概率高于Opus 4.1在十次尝试中成功的概率。作为此评估一部分的挑战反映了相当复杂、长时间的工作流程。例如,一个挑战涉及分析网络流量、从该流量中提取恶意软件,然后反编译和解密该恶意软件。我们估计这至少需要熟练的人类一个小时,甚至可能更长;Claude花了38分钟就解决了它。
当我们给Claude Sonnet 4.5 10次尝试Cybench评估时,它在76.5%的挑战中成功。这特别值得注意,因为在过去六个月中,我们将成功率提高了一倍(2025年2月发布的Sonnet 3.7在10次试验时只有35.9%的成功率)。
模型在Cybench上的性能。Claude Sonnet 4.5在k=1、10或30次试验中显著优于所有以前的模型,其中成功概率被测量为在k次试验中至少成功一次的问题比例的期望值。请注意,这些结果是在原始40个Cybench问题中的37个子集上进行的,由于实施困难,排除了3个问题。
CyberGym评估
在另一个外部评估中,我们在CyberGym上评估了Claude Sonnet 4.5,这是一个评估代理能力的基准,要求(1)根据弱点的高级描述在真实开源软件项目中找到(先前发现的)漏洞,(2)发现新的(先前未发现的)漏洞。CyberGym团队先前发现Claude Sonnet 4是他们的公共排行榜上最强的模型。
Claude Sonnet 4.5的得分明显优于Claude Sonnet 4或Claude Opus 4。当使用与公共CyberGym排行榜相同的成本约束(即每个漏洞限制2美元的LLM API查询)时,我们发现Sonnet 4.5达到了28.9%的新最先进分数。但真正的攻击者很少受到这种限制:他们可以进行多次尝试,每次尝试的费用远高于2美元。当我们移除这些限制并给每个任务Claude 30次尝试时,我们发现Sonnet 4.5在66.7%的程序中重现了漏洞。虽然这种方法相对成本较高,但绝对成本——每个任务尝试30次约45美元——仍然相当低。
模型在CyberGym上的性能。Sonnet 4.5优于所有以前的模型,包括Opus 4.1。*请注意,Opus 4.1由于其价格较高,在1次试验场景中没有遵循与其他模型相同的2美元成本限制。
同样有趣的是Claude Sonnet 4.5发现新漏洞的速率。虽然CyberGym排行榜显示Claude Sonnet 4只在约2%的目标中发现漏洞,但Sonnet 4.5在5%的情况下发现了新漏洞。通过重复试验30次,它在33%以上的项目中发现了新漏洞。
模型在CyberGym上的性能。Sonnet 4.5在一次试验中发现新漏洞的能力优于Sonnet 4,并且在30次试验时大幅超越其性能。
漏洞修复的进一步研究
我们还在进行初步研究,探索Claude生成和审查修复漏洞补丁的能力。生成漏洞补丁比发现漏洞更难,因为模型必须进行外科手术式的更改,移除漏洞而不改变原始功能。在没有指导或规范的情况下,模型必须从代码库中推断出这种预期功能。
在我们的实验中,我们让Claude Sonnet 4.5根据漏洞描述和程序崩溃时正在做什么的信息,修复CyberGym评估集中的漏洞。我们使用Claude来评判自己的工作,要求它通过将生成的补丁与人类编写的参考补丁进行比较来对提交的补丁进行评分。15%的Claude生成的补丁被判定为与人类生成的补丁语义等效。然而,这种基于比较的方法有一个重要限制:因为漏洞通常可以用多种有效方式修复,与参考补丁不同的补丁可能仍然正确,导致我们的评估中出现假阴性。
我们手动分析了得分最高的补丁样本,发现它们与已被合并到CyberGym评估所基于的开源软件中的参考补丁功能相同。这项工作揭示了一个与我们更广泛发现一致的规律:Claude随着整体改进而发展网络安全相关技能。我们的初步结果表明,补丁生成——就像之前的漏洞发现一样——是一种可以通过专注研究增强的涌现能力。我们的下一步是系统地解决我们已确定的挑战,使Claude成为可靠的补丁编写者和审查者。
与合作伙伴的协作
现实世界的防御性安全在实践中比我们的评估所能捕捉的更为复杂。我们一直发现,现实问题更加复杂,挑战更加困难,实施细节非常重要。因此,我们认为与实际使用AI进行防御的组织合作,获取关于我们研究如何加速他们工作的反馈非常重要。在Sonnet 4.5发布前,我们与多家组织合作,他们将模型应用于漏洞修复、测试网络安全和威胁分析等领域的实际挑战。
Hackerone首席产品官Nidhi Aggarwal表示:"Claude Sonnet 4.5将我们的Hai安全代理的平均漏洞接收时间减少了44%,同时提高了25%的准确性,帮助我们更有信心地降低企业风险。"根据CrowdStrike数据科学高级副总裁兼首席科学家Sven Krasser的说法:"Claude在红队方面显示出强大的前景——生成创造性的攻击场景,加速我们研究攻击者战术的方式。这些见解加强了我们在端点、身份、云、数据、SaaS和AI工作负载方面的防御。"
这些证言使我们更加确信Claude在应用防御工作方面的潜力。
未来发展方向
Claude Sonnet 4.5代表了一次有意义的改进,但我们知道它的许多能力仍处于初级阶段,尚未达到安全专业人士和既定流程的水平。我们将继续努力提高模型与防御相关的能力,并增强保护我们平台的威胁情报和缓解措施。事实上,我们已经开始使用调查和评估的结果来不断完善我们检测模型有害网络行为的能力。这包括使用组织级别的摘要技术来理解超越单个提示和完成内容的更大图景;这有助于区分双重用途行为与恶意行为,特别是在涉及大规模自动化活动的最严重用例中。
但我们相信,现在是尽可能多的组织开始实验如何利用AI改善其安全态势并构建评估以衡量这些收益的时候了。Claude Code中的自动化安全审查展示了如何将AI集成到CI/CD管道中。我们特别希望研究人员和团队能够实验性地将模型应用于安全运营中心(SOC)自动化、安全信息和事件管理(SIEM)分析、安全网络工程或主动防御等领域。我们希望看到并使用更多针对防御能力的评估,作为不断增长的第三方生态系统的一部分。
但构建和采用AI以防御优势只是解决方案的一部分。我们还需要讨论如何借助前沿AI模型使数字基础设施更具弹性,并使新软件在设计上更加安全。我们期待与行业、政府和社会各界进行这些讨论,因为我们正处在AI对网络安全的影响从未来关切转变为当今当务之急的时刻。









