AI重塑网络安全防御:Claude 4.5如何引领安全新纪元

1

人工智能在网络安全领域正迎来重要转折点。过去几年,我们团队一直密切关注AI模型在网络安全相关能力上的发展。最初,我们发现模型在高级和有意义的能力方面并不特别强大。然而,在过去一年左右,我们注意到情况发生了显著变化。AI模型已从理论走向实践,成为网络安全防御的有力工具。

AI网络安全能力的历史演进

网络安全与AI的结合经历了几个关键阶段:

  • 早期探索阶段:最初,AI模型在网络安全任务中表现有限,难以应对复杂的威胁场景。
  • 能力突破阶段:过去一年,我们观察到AI模型在网络安全任务上的能力显著提升,能够重现历史上代价最高的网络攻击之一——2017年Equifax数据泄露事件。
  • 实战验证阶段:Claude在网络安全竞赛中多次超越人类团队的表现,帮助我们发现了自身代码中的漏洞并修复。
  • 规模化应用阶段:在2025年夏季的DARPA AI网络挑战赛中,各团队使用大型语言模型(包括Claude)构建了"网络推理系统",检查数百万行代码中的漏洞。

Claude 4.5:网络安全能力的飞跃

随着大型语言模型规模的扩大,"涌现能力"——那些在较小模型中不明显且不一定是模型训练明确目标的技能——开始出现。Claude在执行网络安全任务(如寻找和利用软件漏洞)方面的能力,正是开发通用AI助手的副产品。

然而,我们不愿仅依靠通用模型的进步来更好地装备防御者。由于AI和网络安全发展这一时刻的紧迫性,我们专门投入研究人员提升Claude在关键技能方面的表现,如代码漏洞发现和修复。

Claude Sonnet 4.5的结果反映了这项工作的成果。它在许多网络安全方面与Claude Opus 4.1相当或更优,同时成本更低、速度更快。

权威评测:Claude 4.5的卓越表现

为了测试研究效果,我们运行了行业标准的模型评测。这些评测能够清晰比较不同模型,衡量AI进步的速度,并提供良好的指标,确保我们不只是针对自己的测试进行教学。

Cybench评测结果

Cybench是一个源自CTF(夺旗竞赛)挑战的基准,我们已经追踪评测了一年多。在这一评测中,我们看到Claude Sonnet 4.5取得了显著进步,不仅超越了Claude Sonnet 4,甚至超过了Claude Opus 4和4.1模型。最引人注目的是,当Opus 4.1每个任务有10次尝试机会时,Sonnet 4.5每个任务只有1次尝试机会的成功概率更高

Claude Sonnet 4.5在Cybench评测中超越其他模型

这一评测中的挑战反映了相当复杂、长时间的工作流程。例如,一个挑战涉及分析网络流量、从该流量中提取恶意软件,以及反编译和解密恶意软件。我们估计,这至少需要熟练的人类专家一小时,甚至可能更长;Claude花了38分钟解决了它。

当我们给Claude Sonnet 4.5在Cybench评测中10次尝试机会时,它在76.5%的挑战中成功。这一点特别值得注意,因为在过去六个月内,我们将成功率翻了一番(2025年2月发布的Sonnet 3.7在10次试验时只有35.9%的成功率)。

CyberGym评测结果

在另一个外部评测中,我们在CyberGym上评估了Claude Sonnet 4.5,这是一个评估代理能力的基准,包括:(1)根据弱点的高层次描述在真实开源软件项目中找到(先前发现的)漏洞,以及(2)发现新的(先前未发现的)漏洞。

Claude Sonnet 4.5的得分明显优于Claude Sonnet 4或Claude Opus 4。当使用与公开CyberGym排行榜相同的成本限制(即每个漏洞限制使用2美元的LLM API查询)时,我们发现Sonnet 4.5取得了28.9%的新最先进分数。但真正的攻击者很少受到这种限制:他们可以进行多次尝试,每次尝试远超2美元。当我们移除这些限制,给每个任务30次尝试机会时,我们发现Sonnet 4.5在66.7%的程序中重现了漏洞。尽管这种方法的相对价格较高,但绝对成本——每个任务尝试30次约45美元——仍然相当低。

模型在CyberGym上的表现——Sonnet 4.5在一次和三十次尝试后都更有可能成功

同样有趣的是Claude Sonnet 4.5发现新漏洞的速率。虽然CyberGym排行榜显示Claude Sonnet 4只在约2%的目标中发现漏洞,但Sonnet 4.5在5%的情况下发现了新漏洞。通过重复试验30次,它在超过33%的项目中发现了新漏洞。

CyberGym新漏洞发现的模型表现

补丁生成研究进展

我们还在进行初步研究,探讨Claude生成和审查修复漏洞的补丁的能力。生成补丁比发现漏洞更难,因为模型必须进行外科手术式的更改,移除漏洞而不改变原始功能。在没有指导或规范的情况下,模型必须从代码库中推断出这种预期功能。

在我们的实验中,我们要求Claude Sonnet 4.5根据漏洞描述和程序崩溃时正在做什么的信息,修复CyberGym评估集中的漏洞。我们使用Claude来判断自己的工作,要求它通过将生成的补丁与人类编写的参考补丁进行比较来评分。15%的Claude生成的补丁被判定为与人类生成的补丁语义等效。然而,这种基于比较的方法有一个重要限制:因为漏洞通常可以通过多种有效方式修复,与参考补丁不同的补丁仍然可能是正确的,导致我们的评估中出现假阴性。

我们手动分析了得分最高的补丁样本,发现它们与已合并到CyberGym评估所基于的开源软件中的参考补丁功能相同。这项工作揭示了一个与我们更广泛发现一致的模式:Claude随着整体改进而发展网络安全相关技能。我们的初步结果表明,补丁生成——就像之前的漏洞发现一样——是一种可以通过专注研究增强的涌现能力。我们的下一步是系统性地解决我们已确定的挑战,使Claude成为可靠的补丁编写者和审查者。

与合作伙伴的实践验证

现实世界的防御性安全实践比我们的评测所能捕捉的更为复杂。我们一直发现,现实问题更加复杂,挑战更加艰巨,实施细节非常重要。因此,我们认为与实际使用AI进行防御的组织合作,获取关于我们的研究如何加速他们工作的反馈,非常重要。

在Sonnet 4.5发布前,我们与多家组织合作,他们将模型应用于漏洞修复、测试网络安全和威胁分析等领域的实际挑战。

Hackerone首席产品官Nidhi Aggarwal表示:"Claude Sonnet 4.5将我们Hai安全代理的平均漏洞接收时间减少了44%,同时提高了25%的准确性,帮助我们自信地降低企业风险。"根据CrowdStrike数据科学高级副总裁兼首席科学家Sven Krasser的说法:"Claude在红队方面显示出强大潜力——创造性地生成攻击场景,加速我们研究攻击者技术的方式。这些见解加强了我们在端点、身份、云、数据、SaaS和AI工作负载方面的防御。"

这些证言使我们更加确信Claude在应用防御工作方面的潜力。

未来发展方向

Claude Sonnet 4.5代表了一项有意义的改进,但我们知道它的许多能力仍处于初期阶段,尚未达到安全专业人士和既定流程的水平。我们将继续努力改进模型的防御相关能力,增强保护我们平台的威胁情报和缓解措施。

事实上,我们已经开始利用调查和评估的结果来不断完善我们检测模型有害网络行为的能力。这包括使用组织级别的摘要技术来理解超越单一提示和完成内容的更大图景;这有助于区分双重用途行为和恶意行为,特别是对于涉及大规模自动化活动的最具破坏性的用例。

但我们相信,现在是尽可能多的组织开始实验如何利用AI改善其安全态势并构建评估以衡量这些收益的时候了。Claude Code中的自动安全审查展示了如何将AI集成到CI/CD管道中。我们特别希望研究人员和团队能够实验将模型应用于安全运营中心(SOC)自动化、安全信息与事件管理(SIEM)分析、安全网络工程或主动防御等领域。我们希望看到并使用更多针对防御能力的评估,作为不断增长的模型评估第三方生态系统的一部分。

但即使构建和采用以防御者优势的模型也只是解决方案的一部分。我们还需要关于如何使数字基础设施更具韧性以及如何通过设计使新软件更安全的对话——包括前沿AI模型的帮助。我们期待与行业、政府和社会各界进行这些讨论,因为我们导航AI对网络安全影响从未来关切转变为当今关键的这一时刻。

实施建议

对于希望利用AI增强网络安全防御的组织,我们提出以下建议:

  1. 开始实验:不要等待完美的解决方案,现在就开始实验AI如何改善您的安全态势。

  2. 构建评估框架:开发适合您特定环境的评估方法,衡量AI工具带来的实际收益。

  3. 集成到工作流程:将AI安全工具集成到现有的安全运营流程中,如CI/CD管道、SIEM系统等。

  4. 关注防御能力:优先考虑增强防御能力的AI应用,如漏洞检测、安全测试和威胁分析。

  5. 持续学习:网络安全和AI技术都在快速发展,保持对新发展和最佳实践的关注至关重要。

结论

AI在网络安全领域的影响正从理论走向实践,Claude Sonnet 4.5代表了这一转变的重要里程碑。随着攻击者利用AI扩大威胁范围,防御者必须加速采用AI技术,确保数字安全优势不落入恶意行为者手中。通过专注于防御能力、与合作伙伴密切合作以及持续创新,我们可以构建一个更安全的数字未来。现在正是组织开始实验和采用AI防御技术的关键时刻,以应对不断演变的网络威胁格局。