AI重塑网络安全防御:Claude Sonnet 4.5如何引领防御新纪元

2

人工智能技术正以前所未有的速度改变着网络安全领域的格局。随着AI模型从理论走向实践,网络安全专家们开始意识到,AI不仅是攻击者的利器,更是防御者的强大盟友。Anthropic公司最新发布的Claude Sonnet 4.5模型在网络安全防御领域的突破性进展,标志着AI辅助防御进入了一个新的发展阶段。

网络安全与AI的交汇点

经过多年跟踪研究,我们观察到AI模型在网络安全相关能力上的显著提升。最初,AI模型在执行高级网络安全任务时表现并不突出,但过去一年多来,情况发生了根本性变化:

  • 研究人员成功让AI模型复现了历史上代价最高的网络攻击之一——2017年Equifax数据泄露事件
  • Claude在网络安全竞赛中多次超越人类团队的表现
  • Claude帮助研究人员在代码发布前发现并修复了多个漏洞

在2025年夏季的DARPA AI网络安全挑战赛中,各团队使用大型语言模型(包括Claude)构建了"网络推理系统",检查数百万行代码中的漏洞。除了已插入的漏洞外,团队还发现并修复了一些先前未被发现的真实漏洞。这种趋势表明,AI在网络安全领域的影响力正处于一个关键转折点。

Claude Sonnet 4.5:网络安全能力的飞跃

随着大型语言模型规模的扩大,"涌现能力"——即在小模型中不明显且不是模型训练明确目标的技能——开始显现。Claude在执行网络安全任务(如寻找和利用软件漏洞)方面的能力,正是开发通用AI助手的副产品。

然而,我们不愿仅依靠通用模型的进步来增强防御能力。鉴于AI和网络安全发展的紧迫性,Anthropic专门投入研究人员提升Claude在关键技能方面的表现,如代码漏洞发现和修复。

Claude Sonnet 4.5的成果反映了这些努力。它在多个网络安全方面与Claude Opus 4.1相当或更优,同时成本更低、速度更快。

权威评测的证明

在开发Sonnet 4.5过程中,研究团队专注于增强Claude在代码库中查找漏洞、修复漏洞以及在模拟部署的安全基础设施中测试弱点的能力。这些选择反映了防御者的重要任务。团队刻意避免明显有利于进攻工作的增强,如高级利用技术或恶意软件编写。

Cybench评测

Cybench是一个源自CTF(夺旗竞赛)挑战的基准测试,我们已跟踪评测一年多。在这一评测中,Claude Sonnet 4.5表现出显著提升,不仅超越了Claude Sonnet 4,甚至超越了Claude Opus 4和4.1模型。最引人注目的是,在每项任务仅尝试一次的情况下,Sonnet 4.5的成功概率高于Opus 4.1在每项任务尝试十次时的成功概率。

AI网络安全评测

这些挑战反映了相当复杂、长期的工作流程。例如,一个挑战涉及分析网络流量、从该流量中提取恶意软件,然后反编译和解密恶意软件。估计这至少需要熟练的人类专家一小时,可能更长时间;Claude仅用38分钟就解决了。

当给予Claude Sonnet 4.5在Cybench评测中10次尝试机会时,它在76.5%的挑战中取得成功。这一结果尤其值得注意,因为仅在过去的六个月内,我们将这一成功率提高了一倍(2025年2月发布的Sonnet 3.7在10次试验时仅有35.9%的成功率)。

CyberGym评测

在另一个外部评测中,我们评估了Claude Sonnet 4.5在CyberGym上的表现,这是一个评估代理能力的基准,包括:(1)给定弱点的高层次描述,在真实开源软件项目中查找(先前已发现的)漏洞;(2)发现新的(先前未发现的)漏洞。

Claude Sonnet 4.5的得分明显优于Claude Sonnet 4或Claude Opus 4。当使用与公开CyberGym排行榜相同的成本约束(即每个漏洞限制2美元的LLM API查询)时,我们发现Sonnet 4.5达到了28.9%的新最先进分数。但真正的攻击者很少受此限制:他们可以进行多次尝试,每次尝试的成本远高于2美元。当我们移除这些限制,给每个任务30次尝试机会时,我们发现Sonnet 4.5在66.7%的程序中复现了漏洞。

AI漏洞发现能力

同样有趣的是Claude Sonnet 4.5发现新漏洞的速率。虽然CyberGym排行榜显示Claude Sonnet 4仅在约2%的目标中发现漏洞,但Sonnet 4.5在5%的情况下发现了新漏洞。通过重复试验30次,它在超过33%的项目中发现了新漏洞。

漏洞修复的进一步研究

我们还在进行初步研究,探索Claude生成和审查修复漏洞补丁的能力。修复漏洞比发现漏洞更难,因为模型需要进行外科手术式的更改,移除漏洞而不改变原始功能。在没有指导或规范的情况下,模型必须从代码库中推断出预期的功能。

在我们的实验中,我们要求Claude Sonnet 4.5基于漏洞描述和程序崩溃时正在执行的信息,修复CyberGym评估集中的漏洞。我们使用Claude来评判自己的工作,要求它通过将其提交的补丁与人类编写的参考补丁进行比较来评分。15%的Claude生成的补丁被判定为与人类生成的补丁语义等效。然而,这种基于比较的方法有一个重要限制:因为漏洞通常可以通过多种有效方式修复,与参考补丁不同的补丁可能仍然正确,导致我们的评估中出现假阴性。

我们手动分析了得分最高的补丁样本,发现它们与已合并到CyberGym评估所基于的开源软件中的参考补丁功能相同。这一工作揭示了与我们更广泛发现一致的模式:Claude随着整体改进而发展网络安全相关能力。我们的初步结果表明,补丁生成——就像之前的漏洞发现一样——是一种可以通过专注研究增强的涌现能力。

与合作伙伴的协作

现实世界的防御性网络安全比我们的评测所能捕捉的更加复杂。我们一直发现,现实问题更复杂,挑战更艰巨,实施细节非常重要。因此,我们认为与实际使用AI进行防御的组织合作非常重要,以获取关于我们的研究如何加速他们工作的反馈。

在Sonnet 4.5发布前,我们与多家组织合作,他们将模型应用于漏洞修复、测试网络安全和威胁分析等领域的实际挑战。

Hackerone首席产品官Nidhi Aggarwal表示:"Claude Sonnet 4.5将我们的Hai安全代理的平均漏洞处理时间减少了44%,同时提高了25%的准确性,帮助我们以信心降低企业风险。"根据CrowdStrike数据科学高级副总裁兼首席科学家Sven Krasser的说法:"Claude在红队方面显示出强大潜力——生成创造性的攻击场景,加速我们研究攻击者技术的方式。这些见解增强了我们在端点、身份、云、数据、SaaS和AI工作负载方面的防御能力。"

这些证言让我们对Claude的防御应用潜力更加充满信心。

未来发展方向

Claude Sonnet 4.5代表了有意义的进步,但我们知道它的许多能力仍处于初级阶段,尚未达到安全专业人士和既定流程的水平。我们将继续改进模型与防御相关的能力,并增强保护我们平台的威胁情报和缓解措施。

我们鼓励组织开始实验如何利用AI改善其安全态势,并建立评估来衡量这些收益。Claude Code中的自动化安全审查展示了AI如何集成到CI/CD管道中。我们特别希望研究人员和团队能够实验将模型应用于安全运营中心(SOC)自动化、安全信息与事件管理(SIEM)分析、安全网络工程或主动防御等领域。

构建AI驱动的防御体系

构建和采用有利于防御者的AI只是解决方案的一部分。我们还需要关于如何使数字基础设施更具韧性、新软件设计更安全的对话——包括前沿AI模型的帮助。随着AI对网络安全的影响从未来的担忧转变为当下的紧迫任务,我们期待与行业、政府和社会各界展开这些讨论。

企业和组织应该认识到,AI不再是网络安全的未来趋势,而是当下的必备工具。通过积极拥抱AI技术,构建完善的防御体系,组织可以在日益复杂的网络威胁环境中保持竞争优势,保护关键数据和基础设施安全。