AI重塑网络安全防御:Claude Sonnet 4.5如何引领防御新纪元

2

在网络安全领域,AI模型已从理论概念转变为实用工具。随着研究和实践不断证明前沿AI作为网络攻击工具的有效性,Anthropic公司投入资源提升Claude帮助防御者检测、分析和修复代码及部署系统中漏洞的能力。这项工作使得Claude Sonnet 4.5在发现代码漏洞和其他网络安全技能方面,能够匹配甚至超越仅两个月前发布的旗舰模型Opus 4.1。对于防御者而言,采用和试验AI技术将是保持竞争力的关键。

AI网络安全:重要转折点

我们相信,AI对网络安全的影响现已进入重要转折点。过去几年,我们的团队一直密切关注AI模型与网络安全相关的能力。最初,我们发现模型在高级和有意义的能力方面并不特别强大。然而,在过去一年左右,我们注意到这一情况发生了变化:

  • 我们展示了模型能够在模拟中重现历史上代价最高的网络攻击之一——2017年Equifax数据泄露事件。
  • 我们让Claude参加网络安全竞赛,在某些情况下,它的表现超过了人类团队。
  • Claude帮助我们发现了自身代码中的漏洞并在发布前修复了它们。

在今年夏季的DARPA AI网络安全挑战赛中,各团队使用大型语言模型(包括Claude)构建了"网络推理系统",检查数百万行代码以发现和修补漏洞。除了植入的漏洞外,团队还发现(有时也修补了)先前未被发现的、非合成的漏洞。在竞赛之外,其他前沿实验室现在也应用模型来发现和报告新的漏洞。

与此同时,作为我们保障工作的一部分,我们发现并破坏了我们自己平台上利用AI扩展其运营能力的威胁行为者。我们的保障团队最近发现并破坏了一起"氛围黑客"事件,其中一名网络犯罪分子使用Claude构建了一个大规模数据勒索计划,该计划以前需要一个完整团队才能完成。保障团队还检测并对抗了Claude在日益复杂的间谍活动中的使用,包括针对关键电信基础设施的行动,该行为者的特征与中国APT行动一致。

所有这些证据线都让我们认为,我们正处于网络生态系统的一个重要转折点,从现在开始的进步可能会变得相当快,或使用量可能会快速增长。

因此,现在是加速AI防御应用以保护代码和基础设施的重要时刻。我们不应将AI带来的网络优势拱手让给攻击者和犯罪分子。虽然我们将继续投入资源检测和破坏恶意攻击者,但我们认为最具可扩展性的解决方案是构建AI系统,赋能那些保护我们数字环境的人——如保护企业和政府的安全团队、网络安全研究人员以及关键开源软件的维护者。

Claude Sonnet 4.5:强调网络安全技能

随着大型语言模型规模的扩大,"涌现能力"——即在小模型中不明显且不一定是模型训练明确目标的技能——开始出现。事实上,Claude执行网络安全任务(如在夺旗挑战中查找和利用软件漏洞)的能力,一直是开发通用AI助手过程中的副产品。

但我们不希望仅仅依靠通用模型的进步来更好地装备防御者。鉴于AI和网络安全发展这一时刻的紧迫性,我们专门投入研究人员使Claude在代码漏洞发现和修复等关键技能方面更加出色。

这项工作的成果反映在Claude Sonnet 4.5中。它在网络安全方面的许多方面可与Claude Opus 4.1相媲美甚至更优,同时成本更低、速度更快。

评测证据

在构建Sonnet 4.5时,我们让一个小型研究团队专注于增强Claude在代码库中发现漏洞、修补漏洞以及在模拟部署的安全基础设施中测试弱项的能力。我们选择这些是因为它们反映了防御者的重要任务。我们刻意避免明显有利于进攻工作的增强——如高级漏洞利用或编写恶意软件。我们希望模型能够在部署前发现不安全的代码,并找到和修复已部署代码中的漏洞。当然,我们还有很多未关注的关键安全任务;在本文末尾,我们将详细阐述未来的发展方向。

为了测试我们研究的效果,我们对模型进行了行业标准评测。这些评测能够清晰比较不同模型,衡量AI进步的速度,并在新颖的、外部开发的评测情况下——提供良好的指标,确保我们不仅仅是在针对自己的测试进行教学。

Cybench评测

我们追踪了一年多的评测之一是Cybench,这是一个源自夺旗竞赛挑战的基准。在这个评测中,我们看到Claude Sonnet 4.5取得了显著进步,不仅超过了Claude Sonnet 4,甚至超越了Claude Opus 4和4.1模型。也许最引人注目的是,当Opus 4.1每个任务有10次尝试机会时,Sonnet 4.5每个任务只有一次尝试机会的成功概率更高。这个评测中包含的挑战反映了相当复杂、长时间的工作流程。例如,一个挑战涉及分析网络流量、从该流量中提取恶意软件,以及反编译和解密该恶意软件。我们估计,这至少需要熟练的人类专家一小时,甚至可能更长;Claude花了38分钟就解决了它。

当我们给Claude Sonnet 4.5在Cybench评测中10次尝试机会时,它在76.5%的挑战中成功。这一点特别值得注意,因为在过去六个月里,我们将这个成功率提高了一倍(2025年2月发布的Sonnet 3.7在10次试验时的成功率仅为35.9%)。

Claude Sonnet 4.5在Cybench上超越其他模型

模型在Cybench上的表现。Claude Sonnet 4.5在k=1、10或30次尝试时显著优于所有先前模型,其中成功概率被测量为在k次尝试中至少成功一次的问题比例的期望值。请注意,这些结果是在原始40个Cybench问题中的37个子集上进行的,其中3个问题因实施困难而被排除。

CyberGym评测

在另一个外部评测中,我们在CyberGym上评估了Claude Sonnet 4.5,这是一个评估代理能力的基准,测试其(1)在给定弱点高级描述的情况下,在真实开源软件项目中查找(先前发现的)漏洞的能力,以及(2)发现新的(先前未发现的)漏洞的能力。CyberGym团队此前发现Claude Sonnet 4是他们在公开排行榜上最强的模型。

Claude Sonnet 4.5的得分明显优于Claude Sonnet 4或Claude Opus 4。使用与公开CyberGym排行榜相同的成本限制(即每个漏洞限制2美元的LLM API查询),我们发现Sonnet 4.5取得了28.9%的新最先进分数。但真正的攻击者很少受到这种限制:他们可以进行多次尝试,每次尝试的费用远高于2美元。当我们移除这些限制,并给每个任务30次尝试机会时,我们发现Sonnet 4.5在66.7%的程序中重现了漏洞。尽管这种方法相对成本较高,但绝对成本——尝试一个任务30次约45美元——仍然相当低。

模型在CyberGym上的表现——Sonnet 4.5在一次尝试和三十次尝试后都更有可能成功

模型在CyberGym上的表现。Sonnet 4.5优于所有先前模型,包括Opus 4.1。*请注意,Opus 4.1由于其价格较高,在1次尝试场景中没有遵循与其他模型相同的2美元成本限制。

同样有趣的是Claude Sonnet 4.5发现新漏洞的速度。虽然CyberGym排行榜显示Claude Sonnet 4只在约2%的目标中发现漏洞,但Sonnet 4.5在5%的情况下发现了新漏洞。通过重复试验30次,它在33%以上的项目中发现了新漏洞。

模型在CyberGym上的新漏洞发现表现

模型在CyberGym上的新漏洞发现表现。Sonnet 4.5在一次尝试时的新漏洞发现能力就优于Sonnet 4,并且在给予30次尝试时,其性能大幅领先。

补丁修复的进一步研究

我们也在对Claude生成和审查修复漏洞的补丁能力进行初步研究。修复漏洞比发现漏洞更难,因为模型需要进行外科手术式的更改,移除漏洞而不改变原有功能。在没有指导或规范的情况下,模型必须从代码库中推断出预期的功能。

在我们的实验中,我们让Claude Sonnet 4.5根据漏洞描述和程序崩溃时的信息,修复CyberGym评估集中的漏洞。我们使用Claude来评估自己的工作,要求它通过将提交的补丁与人类编写的参考补丁进行比较来对补丁进行评分。15%的Claude生成的补丁被判定为与人类生成的补丁语义等效。然而,这种基于比较的方法有一个重要局限:因为漏洞通常可以通过多种有效方式修复,与参考补丁不同的补丁可能仍然是正确的,导致我们的评估中出现假阴性。

我们手动分析了评分最高的补丁样本,发现它们与已合并到CyberGym评估所基于的开源软件中的参考补丁功能相同。这项工作揭示了一个与我们更广泛发现一致的模式:Claude在普遍改进的同时发展了网络安全相关技能。我们的初步结果表明,补丁生成——就像此前的漏洞发现一样——是一种涌现能力,可以通过有针对性的研究得到增强。我们的下一步是系统解决我们已确定的挑战,使Claude成为可靠的补丁编写者和审查者。

与可信伙伴合作

现实世界中的防御性安全实践比我们的评测所能捕捉的更为复杂。我们一直发现,实际问题更加复杂,挑战更加艰巨,实施细节非常重要。因此,我们认为与实际使用AI进行防御的组织合作,获取关于我们的研究如何加速他们工作的反馈非常重要。在Sonnet 4.5发布前,我们与多家组织合作,他们将模型应用于漏洞修复、测试网络安全和威胁分析等领域的实际挑战。

Hackerone首席产品官Nidhi Aggarwal表示:"Claude Sonnet 4.5将我们的Hai安全代理的平均漏洞接收时间减少了44%,同时提高了25%的准确性,帮助我们更有信心地降低企业风险。"根据CrowdStrike数据科学高级副总裁兼首席科学家Sven Krasser的说法:"Claude在红队方面显示出强大的潜力——生成创造性的攻击场景,加速我们研究攻击者技术的方式。这些见解加强了我们在终端、身份、云、数据、SaaS和AI工作负载方面的防御能力。"

这些证言让我们对Claude的应用和防御工作更加充满信心。

未来发展方向

Claude Sonnet 4.5代表了一项有意义的改进,但我们知道它的许多能力仍处于初级阶段,尚未达到安全专业人士和既定流程的水平。我们将继续努力改进我们模型与防御相关的能力,并增强保护我们平台的威胁情报和缓解措施。事实上,我们已经开始使用我们调查和评估的结果,不断完善我们检测模型有害网络行为的能力。这包括使用组织级别的摘要技术来理解超越单一提示和完成的大局;这有助于区分双重用途行为与恶意行为,特别是对于涉及大规模自动化活动的最破坏性用例。

但我们相信,现在是尽可能多的组织开始试验如何利用AI改善其安全态势并构建评估以衡量这些收益的时候。Claude Code中的自动安全审查展示了如何将AI集成到CI/CD管道中。我们特别希望研究人员和团队能够试验将模型应用于安全运营中心(SOC)自动化、安全信息和事件管理(SIEM)分析、安全网络工程或主动防御等领域。我们希望在模型评估不断增长的第三方生态系统中,看到并使用更多针对防御能力的评估。

但即使构建和采用以防御者优势为导向的模型也只是解决方案的一部分。我们还需要讨论如何使数字基础设施更具弹性,以及如何通过设计使新软件更安全——包括借助前沿AI模型的帮助。我们期待与行业、政府和社会各界进行这些讨论,因为我们正处在AI对网络安全的影响从未来担忧转变为当今迫切需求的时刻。

结语

AI技术在网络安全防御领域的应用正在经历从量变到质变的飞跃。Claude Sonnet 4.5的推出不仅代表了技术上的突破,更标志着防御方在与攻击者的博弈中开始掌握主动权。通过有针对性的训练和优化,AI模型在漏洞发现、分析和修复方面的能力已经接近甚至超越了一些人类专家。

然而,技术进步的同时也带来了新的挑战。如何在保障AI防御能力的同时防止其被滥用,如何建立更完善的评估体系,如何将AI无缝集成到现有的安全工作流程中,这些都是亟待解决的问题。未来的网络安全防御将不再是人与技术的简单叠加,而是形成一种人机协同的新型防御体系。

对于企业和组织而言,现在是积极拥抱AI技术并将其整合到安全战略中的关键时期。那些能够率先有效利用AI增强防御能力的组织,将在未来的网络攻防对抗中占据优势地位。同时,行业、政府和学术界需要加强合作,共同制定AI安全应用的标准和规范,确保这一强大技术能够真正成为网络安全的守护者,而非新的威胁源。