AI重塑网络安全:防御者如何利用前沿技术守护数字世界

1

在当今数字化快速发展的时代,网络安全已成为企业和组织面临的最严峻挑战之一。随着人工智能技术的飞速发展,AI模型已从理论研究走向实际应用,成为网络安全防御者的强大工具。本文将深入探讨AI如何改变网络安全格局,以及防御者如何利用这些技术保持领先优势。

AI与网络安全的交汇点

经过多年跟踪研究,我们团队发现AI模型在网络安全相关能力上正经历着显著转变。最初,AI模型在高级网络安全任务中表现并不突出,但过去一年左右,情况发生了明显变化。以下是几个关键里程碑:

  • 我们成功让AI模型复现了历史上代价最高的网络攻击之一——2017年Equifax数据泄露事件,通过模拟方式展示了攻击路径。
  • 在网络安全竞赛中,Claude模型多次表现优于人类团队,展示了AI在复杂安全任务中的潜力。
  • Claude帮助我们发现了自身代码中的漏洞,并在发布前修复了这些问题,大大提高了软件安全性。

在2025年夏季的DARPA AI网络安全挑战赛中,各团队使用大型语言模型(包括Claude)构建了"网络推理系统",检查数百万行代码以发现并修复漏洞。除了预设的漏洞外,团队还发现了(有时甚至修复了)先前未发现的、非合成的漏洞。

双刃剑:AI在攻防两面的应用

与此同时,作为我们保障工作的一部分,我们发现并破坏了利用AI扩大其运营规模的威胁行为者。我们的保障团队最近发现并破坏了一起"氛围黑客"事件,网络犯罪分子使用Claude构建了大规模数据勒索计划,这种计划以前需要一个完整团队才能完成。

保障团队还检测并阻止了Claude在日益复杂的间谍行动中的使用,包括针对关键电信基础设施的攻击,这些行动表现出与中国APT组织一致的特征。

这些证据使我们认识到,我们正处于网络安全生态系统的重要转折点,未来的进展可能会非常迅速,使用也可能快速增长。

Claude Sonnet 4.5:强化网络安全能力

随着大型语言模型规模的扩大,"涌现能力"——即在小模型中不明显且不一定是模型训练明确目标的技能——开始出现。事实上,Claude在执行网络安全任务(如寻找和利用软件漏洞)方面的能力,一直是开发通用AI助手过程中的副产品。

但我们不希望仅依靠通用模型的进步来更好地装备防御者。鉴于AI和网络安全发展这一时刻的紧迫性,我们专门投入研究人员提升Claude在关键技能方面的表现,如代码漏洞发现和修复。

Claude Sonnet 4.5正是这些工作的成果。在许多网络安全方面,它可与甚至优于Claude Opus 4.1(仅两个月前发布的前沿模型),同时成本更低、速度更快。

权威评估结果

在构建Sonnet 4.5时,我们组建了一个小型研究团队,专注于增强Claude在代码库中发现漏洞、修复漏洞以及在模拟部署的安全基础设施中测试弱点方面的能力。我们选择这些任务是因为它们反映了防御者的重要工作。我们刻意避免那些明显有利于攻击工作的增强——如高级漏洞利用或编写恶意软件。

Cybench评估

我们跟踪评估了一年多的工具之一是Cybench,这是一个源自CTF(夺旗)竞赛挑战的基准测试。在这一评估中,我们看到Claude Sonnet 4.5取得了显著进步,不仅超越了Claude Sonnet 4,甚至超越了Claude Opus 4和4.1模型。最引人注目的是,当Sonnet 4.5每个任务尝试一次时,其成功率高于Opus 4.1每个任务尝试十次时的成功率。

Claude Sonnet 4.5在Cybench上优于其他模型

模型在Cybench上的性能。Claude Sonnet 4.5在k=1、10或30次尝试中显著优于所有之前的模型,其中成功概率被测量为在至少一次k次尝试成功的比例问题上的期望值。请注意,这些结果是在原始40个Cybench问题中的37个子集上进行的,由于实施困难,排除了3个问题。

Cybench评估中包含的挑战反映了相当复杂、长时间的工作流程。例如,一个挑战涉及分析网络流量、从该流量中提取恶意软件,以及反编译和解密恶意软件。我们估计,这至少需要熟练的人类专家一小时,甚至可能更长;Claude花了38分钟解决了这个问题。

当我们给Claude Sonnet 4.5 10次尝试Cybench评估的机会时,它在76.5%的挑战中取得成功。这一点特别值得注意,因为在过去六个月内,我们将这一成功率翻了一番(2025年2月发布的Sonnet 3.7在10次尝试时只有35.9%的成功率)。

CyberGym评估

在另一个外部评估中,我们在CyberGym上评估了Claude Sonnet 4.5,这是一个评估代理能力的基准,包括(1)根据弱点的高层次描述在真实开源软件项目中发现(先前已发现的)漏洞,(2)发现新的(先前未发现的)漏洞。

CyberGym团队先前发现Claude Sonnet 4是他们在公共排行榜上最强的模型。

Claude Sonnet 4.5的得分显著优于Claude Sonnet 4或Claude Opus 4。在使用与公共CyberGym排行榜相同的成本约束(即每个漏洞限制2美元的LLM API查询)时,我们发现Sonnet 4.5取得了新的最先进分数28.9%。但真正的攻击者很少受到这种限制:他们可以进行多次尝试,每次尝试的成本远高于2美元。当我们移除这些限制,并给每个任务30次尝试时,我们发现Sonnet 4.5在66.7%的程序中重现了漏洞。尽管这种方法相对成本较高,但绝对成本——尝试一个任务30次约45美元——仍然相当低。

模型在CyberGym上的表现——Sonnet 4.5在一次尝试和三十次尝试后都更有可能成功

*模型在CyberGym上的性能。Sonnet 4.5优于所有之前的模型,包括Opus 4.1。*注意,Opus 4.1由于其价格较高,在1次尝试场景中没有遵循与其他模型相同的2美元成本限制。

同样有趣的是Claude Sonnet 4.5发现新漏洞的速度。虽然CyberGym排行榜显示Claude Sonnet 4只在约2%的目标中发现漏洞,但Sonnet 4.5在5%的情况下发现了新漏洞。通过重复试验30次,它在超过33%的项目中发现了新漏洞。

模型在CyberGym新漏洞发现上的表现

模型在CyberGym上的性能。Sonnet 4.5在一次尝试时的新漏洞发现优于Sonnet 4,在给予30次尝试时其性能大幅超越。

漏洞修复的进一步研究

我们还在进行初步研究,探索Claude生成和审查修复漏洞补丁的能力。修复漏洞比发现漏洞更难,因为模型需要进行外科手术式的更改,移除漏洞而不改变原始功能。在没有指导或规范的情况下,模型必须从代码库中推断出这种预期功能。

在我们的实验中,我们让Claude Sonnet 4.5根据漏洞描述和程序崩溃时的信息,修复CyberGym评估集中的漏洞。我们使用Claude来评判自己的工作,要求它通过将生成的补丁与人类编写的参考补丁进行比较来评分。15%的Claude生成的补丁被判定为与人类生成的补丁语义等效。然而,这种基于比较的方法有一个重要限制:因为漏洞通常可以通过多种有效方式修复,与参考补丁不同的补丁仍然可能是正确的,这导致我们的评估中出现假阴性。

我们手动分析了评分最高的补丁样本,发现它们与已合并到CyberGym评估所基于的开源软件中的参考补丁功能相同。这项工作揭示了一个与我们更广泛发现一致的规律:Claude在一般性改进的同时发展了网络安全相关技能。我们的初步结果表明,补丁生成——就像之前的漏洞发现一样——是一种可以通过专注研究增强的涌现能力。我们的下一步是系统性地解决我们已确定的挑战,使Claude成为可靠的补丁作者和审查者。

与合作伙伴的实践经验

现实世界的防御性安全实践比我们的评估所能捕捉的更加复杂。我们一直发现,实际问题更加复杂,挑战更加艰巨,实施细节非常重要。因此,我们认为与实际使用AI进行防御的组织合作,获取关于我们的研究如何加速他们工作的反馈非常重要。在Sonnet 4.5发布前,我们与多家组织合作,将模型应用于他们在漏洞修复、网络安全测试和威胁分析等领域的实际挑战。

Hackerone首席产品官Nidhi Aggarwal表示:"Claude Sonnet 4.5将我们Hai安全代理的平均漏洞接收时间减少了44%,同时提高了25%的准确性,帮助我们自信地降低企业的风险。"根据CrowdStrike数据科学高级副总裁兼首席科学家Sven Krasser的说法:"Claude在红队方面显示出强大的潜力——生成创造性的攻击场景,加速我们研究攻击者手法。这些见解增强了我们在终端、身份、云、数据、SaaS和AI工作负载方面的防御能力。"

这些证言使我们更加确信Claude在应用防御工作方面的潜力。

未来发展方向

Claude Sonnet 4.5代表了一次有意义的改进,但我们知道它的许多能力仍处于初级阶段,尚未匹配安全专业人员既定流程的能力。我们将继续努力提高模型与防御相关的能力,增强保护我们平台的威胁情报和缓解措施。事实上,我们已经开始利用调查和评估的结果来不断完善我们检测模型有害网络行为滥用的能力。这包括使用组织级别的总结技术来理解超越单一提示和完成的更大图景;这有助于区分双重用途行为和恶意行为,特别是对于涉及大规模自动化活动的最具破坏性的用例。

但我们相信,现在是尽可能多的组织开始试验如何利用AI改善其安全态势并构建评估以衡量这些收益的时候。Claude Code中的自动化安全审查展示了AI如何集成到CI/CD管道中。我们特别希望研究人员和团队能够试验在安全运营中心(SOC)自动化、安全信息和事件管理(SIEM)分析、安全网络工程或主动防御等领域应用模型。我们希望在模型评估的第三方生态系统日益增长的过程中,看到并使用更多针对防御能力的评估。

但即使是构建和采用以防御者优势为导向的解决方案也只是解决方案的一部分。我们还需要讨论如何通过前沿AI模型的帮助,使数字基础设施更具韧性,以及如何从设计上使新软件更加安全。我们期待与行业、政府和社会各界进行这些讨论,因为我们正处在AI对网络安全的影响从未来关切转变为当前关键的时刻。

结语

AI正在以前所未有的方式改变网络安全领域。随着Claude Sonnet 4.5等模型的进步,防御者现在拥有了强大的工具来识别、分析和修复漏洞。然而,技术只是解决方案的一部分,我们还需要建立更安全的数字基础设施,并设计更安全的软件。在这个AI与网络安全交汇的关键时刻,组织、政府和社会各界需要共同努力,确保AI技术成为防御者的盟友,而非攻击者的武器。只有这样,我们才能在这个日益复杂的数字世界中构建一个更加安全的未来。