在网络安全领域,AI技术已从理论探索阶段迈向实际应用的关键转折点。随着前沿AI模型在攻击模拟中的效用被证实,我们投入资源显著提升了Claude在帮助防御者检测、分析和修复代码及部署系统漏洞方面的能力。这一努力使得Claude Sonnet 4.5在发现代码漏洞和其他网络安全技能方面,能够匹敌甚至超越仅两个月前发布的旗舰模型Opus 4.1。对于防御者而言,采纳并实验AI技术将是保持竞争力的关键。
AI网络安全能力的演进轨迹
过去几年,我们的团队一直密切关注AI模型与网络安全相关的能力发展。最初,我们发现模型在高级且有意义的能力方面并不特别强大。然而,在过去一年左右,我们注意到一个明显转变:
- 我们成功展示模型能够在模拟中重现历史上代价最高的网络攻击之一——2017年Equifax数据泄露事件。
- 在网络安全竞赛中,Claude的表现有时超越了人类团队。
- Claude帮助我们发现了自身代码中的漏洞并在发布前修复了这些问题。
在夏季DARPA的AI网络安全挑战赛中,各团队使用大型语言模型(包括Claude)构建"网络推理系统",检查数百万行代码以发现并修复漏洞。除了植入的漏洞外,团队还发现(有时修复了)先前未被发现、非合成的漏洞。在竞赛之外,其他前沿实验室现在正应用模型来发现和报告新的漏洞。
与此同时,作为我们保障工作的一部分,我们发现并破坏了自身平台上的威胁行为者,他们利用AI扩展其行动规模。我们的保障团队最近发现并破坏了一起"氛围黑客"事件,网络犯罪分子使用Claude构建了一个大规模数据勒索计划,这在以前需要整个团队才能完成。保障团队还检测并对抗了Claude在日益复杂的间谍行动中的使用,包括针对关键电信基础设施的行动,该行为表现出与中国APT行动一致的特征。
Claude Sonnet 4.5:强化网络安全能力
随着大型语言模型规模的增长,"涌现能力"——在较小模型中不明显且不一定是模型训练明确目标的技能——开始出现。事实上,Claude在执行网络安全任务(如CTF挑战中查找和利用软件漏洞)方面的能力,一直是开发通用AI助手过程中的副产品。
但我们不希望仅仅依靠通用模型的进步来更好地装备防御者。鉴于AI和网络安全发展这一时刻的紧迫性,我们专门投入研究人员使Claude在代码漏洞发现和修复等关键技能上更加出色。
这项工作的成果反映在Claude Sonnet 4.5中。它在网络安全许多方面与Claude Opus 4.1相当或更优,同时成本更低、速度更快。
评测结果:性能突破的证据
在构建Sonnet 4.5过程中,我们组建了一个小型研究团队,专注于增强Claude在代码库中发现漏洞、修复漏洞以及在模拟部署的安全基础设施中测试弱点的能力。我们选择这些任务是因为它们反映了防御者的重要工作。我们刻意避免明显有利于攻击工作的增强——如高级漏洞利用或编写恶意软件。我们希望模型能够在部署前发现不安全代码,并找到并修复已部署代码中的漏洞。
当然,我们并未关注许多其他关键安全任务;在本文末尾,我们将详细阐述未来的发展方向。
Cybench评测
我们跟踪评测了一年多的评估工具之一是Cybench,这是一个从CTF竞赛挑战中提取的基准测试。在这个评测中,我们看到Claude Sonnet 4.5取得了显著进步,不仅超越了Claude Sonnet 4,甚至超越了Claude Opus 4和4.1模型。最引人注目的是,在每项任务仅尝试一次的情况下,Sonnet 4.5的成功概率高于Opus 4.1在每项任务尝试十次的情况。这个评测中的挑战反映了一些复杂、长时间的工作流程。例如,一个挑战涉及分析网络流量、从该流量中提取恶意软件,以及反编译和解密该恶意软件。我们估计,这至少需要熟练的人类专家一小时,甚至可能更长;Claude仅用38分钟就解决了这个问题。
当我们给Claude Sonnet 4.5 10次尝试Cybench评测的机会时,它在76.5%的挑战中取得成功。这特别值得注意,因为在过去六个月内,我们将这一成功率翻了一番(2025年2月发布的Sonnet 3.7在10次尝试时仅有35.9%的成功率)。
模型在Cybench上的性能表现。Claude Sonnet 4.5在k=1、10或30次尝试的情况下,显著超越了所有之前的模型,其中成功概率被测量为至少一次k次尝试成功的问题的比例的期望值。请注意,这些结果是在原始40个Cybench问题中的37个子集上进行的,其中3个问题因实施困难而被排除。
CyberGym评测
在另一个外部评测中,我们在CyberGym上评估了Claude Sonnet 4.5,这是一个评估代理能力的基准,包括(1)根据弱点的高层次描述在真实开源软件项目中查找(先前已发现的)漏洞,以及(2)发现新的(先前未发现的)漏洞。CyberGym团队之前发现Claude Sonnet 4是他们在公共排行榜上最强的模型。
Claude Sonnet 4.5的得分明显优于Claude Sonnet 4或Claude Opus 4。在使用与公共CyberGym排行榜相同的成本约束(即每个漏洞的LLM API查询限制为2美元)的情况下,我们发现Sonnet 4.5取得了28.9%的新最先进分数。但真正的攻击者很少受到此类限制:他们可以进行多次尝试,每次尝试花费远超2美元。当我们移除这些限制,并给每个任务30次尝试机会时,我们发现Sonnet 4.5在66.7%的程序中重现了漏洞。尽管这种方法相对成本较高,但绝对成本——尝试一个任务30次约45美元——仍然相当低。
*模型在CyberGym上的性能表现。Sonnet 4.5超越了所有之前的模型,包括Opus 4.1。*请注意,Opus 4.1由于其价格较高,在1次尝试场景中未遵循与其他模型相同的2美元成本限制。
同样有趣的是Claude Sonnet 4.5发现新漏洞的速度。虽然CyberGym排行榜显示Claude Sonnet 4仅在约2%的目标中发现漏洞,但Sonnet 4.5在5%的情况下发现了新漏洞。通过重复试验30次,它在超过33%的项目中发现了新漏洞。
模型在CyberGym上的新漏洞发现性能。Sonnet 4.5在一次尝试时在新漏洞发现方面超越了Sonnet 4,并且在给予30次尝试时其性能大幅领先。
补丁生成的进一步研究
我们也在进行初步研究,探索Claude生成和审查修复漏洞补丁的能力。修复漏洞比发现漏洞更难,因为模型必须进行外科手术式的更改,移除漏洞而不改变原始功能。在没有指导或规范的情况下,模型必须从代码库中推断出这种预期功能。
在我们的实验中,我们要求Claude Sonnet 4.5基于漏洞描述和程序崩溃时正在做什么的信息,修复CyberGym评估集中的漏洞。我们使用Claude来评判自己的工作,要求它通过将提交的补丁与人类编写的参考补丁进行比较来对提交的补丁进行评分。15%的Claude生成的补丁被判断为与人类生成的补丁在语义上等效。然而,这种基于比较的方法有一个重要局限性:因为漏洞通常可以通过多种有效方式修复,与参考补丁不同的补丁仍然可能是正确的,导致我们的评估中出现假阴性。
我们手动分析了最高分补丁的样本,发现它们与已合并到CyberGym评估所基于的开源软件中的参考补丁在功能上相同。这项工作揭示了一个与我们更广泛发现一致的规律:Claude随着整体改进而发展网络安全相关技能。我们的初步结果表明,补丁生成——就像之前的漏洞发现一样——是一种可以通过专注研究增强的涌现能力。我们的下一步是系统解决我们已确定的挑战,使Claude成为可靠的补丁作者和审查者。
与合作伙伴的实践验证
现实世界的防御性安全在实践中比我们的评测所能捕捉的更为复杂。我们一直发现,实际问题更加复杂,挑战更加艰巨,实现细节非常重要。因此,我们认为与实际使用AI进行防御的组织合作,获取关于我们的研究如何加速他们工作的反馈非常重要。在Sonnet 4.5发布前,我们与多家组织合作,他们将模型应用于漏洞修复、网络安全测试和威胁分析等领域的实际挑战。
HackerOne首席产品官Nidhi Aggarwal表示:"Claude Sonnet 4.5将我们Hai安全代理的平均漏洞接收时间减少了44%,同时提高了25%的准确性,帮助我们自信地降低企业风险。"根据CrowdStrike数据科学高级副总裁兼首席科学家Sven Krasser的说法:"Claude在红队演练方面显示出强大的潜力——生成创造性的攻击场景,加速我们研究攻击者战术。这些洞察增强了我们在终端、身份、云、数据、SaaS和AI工作负载方面的防御能力。"
这些证言使我们对Claude在防御性应用工作中的潜力更加充满信心。
未来发展方向
Claude Sonnet 4.5代表了一次有意义的改进,但我们知道它的许多能力仍处于萌芽阶段,尚未达到安全专业人士和既定流程的水平。我们将继续努力改进我们模型的防御相关能力,并增强保护我们平台的威胁情报和缓解措施。事实上,我们已经开始使用调查和评估结果来不断完善我们检测模型有害网络行为滥用的能力。这包括使用组织级别的摘要技术来理解超越单一提示和完成内容的更大图景;这有助于区分双重用途行为和恶意行为,特别是在涉及大规模自动化活动的最有害用例中。
但我们相信,现在是尽可能多的组织开始实验如何利用AI改善其安全态势并构建评估以衡量这些收益的时候了。Claude Code中的自动化安全审查展示了AI如何集成到CI/CD管道中。我们特别希望研究人员和团队能够实验将模型应用于安全运营中心(SOC)自动化、安全信息和事件管理(SIEM)分析、安全网络工程或主动防御等领域。我们希望看到并使用更多针对防御能力的评估,作为不断发展的模型评估第三方生态系统的一部分。
但即使构建和采用有利于防御者的技术只是解决方案的一部分。我们还需要讨论如何借助前沿AI模型的帮助,使数字基础设施更具弹性,并使新软件在设计上更加安全。我们期待与行业、政府和社会各界进行这些讨论,因为我们正处在AI对网络安全的影响从未来关切转变为当今关键的时刻。
实践建议:将AI融入网络安全防御体系
建立AI安全评估框架:组织应开发适合自身环境的AI安全评估体系,定期测试AI系统在漏洞发现、威胁分析等方面的表现,并持续优化。
整合AI到CI/CD流程:将AI安全审查自动化工具集成到开发流程中,实现代码提交前的实时安全检查,大幅降低漏洞进入生产环境的可能性。
增强SOC能力:探索利用AI模型增强安全运营中心的分析能力,通过自动化处理大量安全事件,提高响应速度和准确性。
开发威胁情报AI应用:利用AI模型分析威胁情报数据,识别潜在攻击模式,预测新兴威胁,为防御决策提供支持。
建立红蓝对抗AI能力:组织内部应建立AI驱动的红队演练能力,模拟高级攻击者行为,测试防御系统的有效性,并据此加强防护措施。
参与行业评估标准制定:积极参与如Cybench、CyberGym等第三方评估标准的发展,共同推动AI防御能力的评估和提升。
培养AI安全专业人才:投资培养既懂网络安全又了解AI技术的复合型人才,构建能够有效利用AI工具的安全团队。
设计安全AI应用架构:在设计AI应用时采用"安全优先"原则,确保AI系统本身的安全性,防止被用于恶意目的。
通过以上措施,组织可以充分利用AI技术提升网络安全防御能力,在日益复杂的网络威胁环境中保持竞争优势。