人工智能正在从理论走向实践,彻底改变网络安全领域。随着研究和经验证明前沿AI作为网络攻击工具的有效性,Anthropic公司投入资源改进Claude帮助防御者检测、分析和修复代码及部署系统中漏洞的能力。这一工作使得Claude Sonnet 4.5在发现代码漏洞和其他网络安全技能方面,能够匹配甚至超越仅两个月前发布的我们的顶级模型Opus 4.1。采用和实验AI将是防御者保持步伐的关键。
网络安全的AI拐点
我们相信,AI对网络安全的影响现在正处于一个重要拐点。
几年来,我们的团队一直在密切关注AI模型的网络安全相关能力。最初,我们发现模型在高级和有意义的任务上并不特别强大。然而,在过去一年左右,我们注意到一个转变。例如:
- 我们展示了模型可以在模拟中重现历史上代价最高的网络攻击之一——2017年Equifax数据泄露事件。
- 我们让Claude参加网络安全竞赛,在某些情况下,它的表现超越了人类团队。
- Claude帮助我们发现了自身代码中的漏洞并在发布前修复了它们。
在今年夏季的DARPA AI网络挑战赛中,团队使用大型语言模型(包括Claude)构建了"网络推理系统",检查数百万行代码以发现和修补漏洞。除了植入的漏洞外,团队还发现(有时修补了)先前未被发现的真实漏洞。在竞赛之外,其他前沿实验室现在也应用模型来发现和报告新的漏洞。
同时,作为我们保障工作的一部分,我们发现并破坏了我们自己平台上利用AI扩大其运作规模的行为者。我们的保障团队最近发现并破坏了一起"氛围黑客"事件,网络犯罪分子使用Claude构建了一个大规模数据勒索计划,该计划以前需要一个完整团队才能完成。保障团队还检测并应对了Claude在日益复杂的间谍行动中的使用,包括针对关键电信基础设施的行动,该行为表现出与中国APT行动一致的特征。
所有这些证据线都让我们认为,我们正处于网络安全生态系统的一个重要拐点,从此处的发展可能会变得相当快或使用可能会快速增长。
因此,现在是加速AI防御使用以保护代码和基础设施的重要时刻。**我们不应该将AI带来的网络优势让给攻击者和犯罪分子。**虽然我们将继续投资于检测和破坏恶意攻击者,但我们认为最可扩展的解决方案是构建AI系统,使那些保护我们数字环境的人——如保护企业和政府的安全团队、网络安全研究人员以及关键开源软件的维护者——能够获得能力。
Claude Sonnet 4.5:强调网络安全技能
随着大型语言模型在规模上的扩大,"涌现能力"——在较小模型中不明显且不一定是模型训练明确目标的技能——开始出现。事实上,Claude执行网络安全任务(如在夺旗挑战中查找和利用软件漏洞)的能力一直是开发通用有用AI助手过程中的副产品。
但我们不仅仅希望依赖通用模型的进步来更好地装备防御者。由于AI和网络安全发展这一时刻的紧迫性,我们专门投入研究人员使Claude在代码漏洞发现和修补等关键技能上变得更好。
这项工作的成果反映在Claude Sonnet 4.5中。它在许多网络安全方面与Claude Opus 4.1相当或更优,同时成本更低、速度更快。
评估证据
在构建Sonnet 4.5时,我们让一个小型研究团队专注于增强Claude在代码库中发现漏洞、修补它们以及在模拟部署的安全基础设施中测试弱点的能力。我们选择这些是因为它们反映了防御者的重要任务。我们刻意避免了明显有利于进攻工作的增强——如高级利用或编写恶意软件。我们希望使模型能够在部署前发现不安全的代码,并找到和修复已部署代码中的漏洞。当然,我们还有很多没有关注的关键安全任务;在本文末尾,我们将详细阐述未来的方向。
为了测试我们研究的效果,我们对模型进行了行业标准评估。这些评估能够在模型之间进行清晰比较,衡量AI进步的速度,并且——特别是对于新颖的、外部开发的评估——提供了一个很好的指标,确保我们不仅仅是在针对自己的测试进行教学。
在进行这些评估时,一个突出特点是多次运行它们的重要性。即使对于大量评估任务来说计算成本很高,但它能更好地捕捉到在任何特定实际问题上动机明确的攻击者或防御者的行为。这样做不仅揭示了Claude Sonnet 4.5的出色表现,也展示了几代以前模型的出色表现。
Cybench评估
我们跟踪了一年多的评估之一是Cybench,这是一个源自夺旗竞赛挑战的基准测试。在这个评估上,我们看到Claude Sonnet 4.5取得了显著的进步,不仅超越了Claude Sonnet 4,甚至超越了Claude Opus 4和4.1模型。也许最引人注目的是,Sonnet 4.5在一次尝试中取得成功的概率高于Opus 4.1在十次尝试中的成功概率。作为此评估一部分的挑战反映了相当复杂、长时间的工作流程。例如,一个挑战涉及分析网络流量、从该流量中提取恶意软件,以及反编译和解密恶意软件。我们估计,这至少需要熟练的人类一小时,甚至可能更长;Claude花了38分钟解决了它。
当我们给Claude Sonnet 4.5 10次尝试进行Cybench评估时,它在76.5%的挑战中成功。这一点特别值得注意,因为在过去六个月中,我们将成功率提高了一倍(2025年2月发布的Sonnet 3.7在10次试验中只有35.9%的成功率)。
模型在Cybench上的性能。Claude Sonnet 4.5在k=1、10或30次试验中显著优于所有先前模型,其中成功概率被测量为至少一次k次试验成功的比例期望值。请注意,这些结果是在原始40个Cybench问题中的37个子集上进行的,其中3个问题因实施困难而被排除。
CyberGym评估
在另一个外部评估中,我们在CyberGym上评估了Claude Sonnet 4.5,这是一个评估代理能力(1)根据弱点的高级描述在真实开源软件项目中查找(先前发现的)漏洞,以及(2)发现新的(先前未发现的)漏洞的基准测试。CyberGym团队先前发现Claude Sonnet 4是他们在公共排行榜上最强的模型。
Claude Sonnet 4.5的得分显著高于Claude Sonnet 4或Claude Opus 4。当使用与公共CyberGym排行榜相同的成本约束(即每个漏洞限制2美元的LLM API查询)时,我们发现Sonnet 4.5取得了28.9%的新最先进分数。但真正的攻击者很少受到这种限制:他们可以尝试许多攻击,每次试验远超过2美元。当我们移除这些限制并给每个任务Claude 30次尝试时,我们发现Sonnet 4.5在66.7%的程序中重现了漏洞。虽然这种方法相对成本较高,但绝对成本——尝试一个任务30次约45美元——仍然相当低。
模型在CyberGym上的性能。Sonnet 4.5优于所有先前模型,包括Opus 4.1。*请注意,Opus 4.1由于其价格较高,在1次试验场景中没有遵循与其他模型相同的2美元成本限制。
同样有趣的是Claude Sonnet 4.5发现新漏洞的速率。虽然CyberGym排行榜显示Claude Sonnet 4只在约2%的目标中发现漏洞,但Sonnet 4.5在5%的情况下发现了新漏洞。通过重复试验30次,它在超过33%的项目中发现了新漏洞。
模型在CyberGym上的性能。Sonnet 4.5在一次试验中发现新漏洞的能力优于Sonnet 4,并且在给予30次试验时大幅超越其性能。
修补的进一步研究
我们还在进行初步研究,探索Claude生成和审查修复漏洞的补丁的能力。修补漏洞比发现它们更难,因为模型必须进行外科手术式的更改,移除漏洞而不改变原始功能。在没有指导或规范的情况下,模型必须从代码库中推断出预期的功能。
在我们的实验中,我们让Claude Sonnet 4.5基于漏洞描述和程序崩溃时正在做什么的信息,修补CyberGym评估集中的漏洞。我们使用Claude来评判自己的工作,要求它通过将生成的补丁与人类编写的参考补丁进行比较来评分。15%的Claude生成的补丁被判定为与人类生成的补丁在语义上等效。然而,这种基于比较的方法有一个重要限制:因为漏洞通常可以通过多种有效方式修复,与参考补丁不同的补丁可能仍然是正确的,导致我们的评估中出现假阴性。
我们手动分析了得分最高的补丁样本,发现它们与已合并到CyberGym评估所基于的开源软件中的参考补丁在功能上相同。这项工作揭示了一个与我们更广泛发现一致的模式:Claude在普遍改进的同时发展网络安全相关技能。我们的初步结果表明,补丁生成——就像之前的漏洞发现一样——是一种可以通过专注研究增强的涌现能力。我们的下一步是系统解决我们已确定的挑战,使Claude成为可靠的补丁编写者和审查者。
与可信伙伴合作
现实世界的防御性安全在实践中比我们的评估所能捕捉的要复杂得多。我们一直发现,现实问题更复杂,挑战更艰巨,实施细节非常重要。因此,我们认为与实际使用AI进行防御的组织合作,以获取关于我们的研究如何加速他们的工作的反馈非常重要。在Sonnet 4.5发布之前,我们与多个组织合作,他们将模型应用于他们在漏洞修复、测试网络安全和威胁分析等领域的实际挑战。
Hackerone首席产品官Nidhi Aggarwal说:"Claude Sonnet 4.5将我们Hai安全代理的平均漏洞接收时间减少了44%,同时提高了25%的准确性,帮助我们自信地降低企业的风险。"根据CrowdStrike数据科学高级副总裁兼首席科学家Sven Krasser的说法:"Claude在红队方面显示出强大的前景——创造性地生成攻击场景,加速我们研究攻击者技巧的方式。这些见解加强了我们在端点、身份、云、数据、SaaS和AI工作负载方面的防御。"
这些推荐信让我们对Claude的应用防御工作更有信心。
未来展望
Claude Sonnet 4.5代表了一个有意义的改进,但我们知道它的许多能力仍处于萌芽阶段,尚未匹配安全专业人士和既定流程的能力。我们将继续努力改进我们模型的防御相关能力,并增强保护我们平台的威胁情报和缓解措施。事实上,我们已经开始使用调查和评估的结果来不断完善我们检测模型有害网络行为的能力。这包括使用组织级别的总结技术来理解超越单一提示和完成的更大图景;这有助于区分双重用途行为和恶意行为,特别是对于涉及大规模自动化活动的最破坏性用例。
**但我们相信,现在是尽可能多的组织开始实验如何利用AI改善其安全态势并构建评估以衡量这些收益的时候。**Claude Code中的自动化安全审查展示了如何将AI集成到CI/CD管道中。我们特别希望让研究人员和团队能够实验将模型应用于安全运营中心(SOC)自动化、安全信息和事件管理(SIEM)分析、安全网络工程或主动防御等领域。我们希望看到并使用更多针对防御能力的评估,作为不断发展的模型评估第三方生态系统的一部分。
但即使是构建和采用以防御者优势的模型也只是解决方案的一部分。我们还需要讨论如何通过设计使数字基础设施更具韧性、新软件更安全——包括借助前沿AI模型的帮助。我们期待与行业、政府和社会各界进行这些讨论,因为我们导航AI对网络安全的影响从未来关切转变为当今迫切需要的时刻。
AI网络安全防御的深远影响
Claude Sonnet 4.5的出现标志着网络安全领域的一个重要转折点。AI不再仅仅是理论上的工具,而是已经成为防御者手中的实际武器。这种转变带来的影响将是深远的:
1. 安全人才结构的变革
传统的网络安全团队将面临重大转型。随着AI能够自动化执行许多常规安全任务,安全专业人员将能够专注于更高级的威胁分析和战略决策。这种转变类似于IT行业从纯手工操作到自动化运维的演进,将大幅提升安全团队的整体效率。
2. 漏洞管理的革命
当前,漏洞管理通常依赖于人工扫描和评估,效率低下且容易遗漏。AI驱动的工具如Claude可以实时分析代码,在开发阶段就识别潜在风险,将"左移安全"理念真正落地。这种预防性安全方法将显著减少漏洞从开发到生产环境的时间窗口。
3. 威胁情报的智能化
传统的威胁情报收集和分析往往滞后于攻击者的行动。AI系统能够实时处理海量安全数据,识别异常模式和潜在威胁,提供更及时、更准确的威胁情报。这种能力对于防御快速变化的网络攻击至关重要。
4. 安全测试的自动化
安全测试是确保软件质量的关键环节,但传统方法耗时且成本高昂。AI可以自动化执行复杂的渗透测试,模拟各种攻击场景,大大提高测试效率和覆盖率。这不仅加速了安全验证过程,还能发现人工测试可能遗漏的漏洞。
5. 安全决策的辅助系统
面对复杂的网络威胁,安全分析师往往需要在信息不完整的情况下做出快速决策。AI可以提供基于历史数据和实时分析的决策建议,帮助分析师更准确地评估风险并采取适当的响应措施。
挑战与应对
尽管AI为网络安全防御带来了巨大机遇,但也面临着一系列挑战:
1. AI系统的安全性
AI系统本身也可能成为攻击目标。对抗性攻击可能导致AI模型产生错误判断,造成严重后果。因此,确保AI系统的安全性和鲁棒性是首要任务。这需要开发专门的对抗性测试方法和防御机制。
2. 误报与漏报的平衡
AI安全工具需要在减少误报和漏报之间找到平衡点。过于严格的检测规则可能导致大量误报,增加安全团队的负担;而过于宽松的规则则可能漏报真正的威胁。这需要持续优化AI模型的检测算法,并根据实际使用情况进行调整。
3. 专业知识与AI的结合
AI工具需要与网络安全专业知识紧密结合才能发挥最大效用。这要求安全团队不仅了解AI技术,还要能够正确解释AI的输出结果,并将其转化为有效的安全措施。
4. 伦理与合规问题
AI在网络安全中的应用也涉及伦理和合规问题,如隐私保护、数据使用限制等。组织需要确保AI安全工具的使用符合相关法规和道德标准。
未来发展方向
基于当前的技术发展和市场需求,AI网络安全防御领域可能出现以下发展方向:
1. 专用安全模型的兴起
随着对网络安全特定需求的增加,我们可能会看到更多专门为安全任务设计的AI模型。这些模型将针对特定的安全场景进行优化,提供更精准、更高效的解决方案。
2. 联邦学习与隐私保护
为了在保护数据隐私的同时利用多方数据训练AI模型,联邦学习等技术将在网络安全领域得到更广泛应用。这将使组织能够在不共享敏感数据的情况下协作开发更强大的安全AI系统。
3. 自动化响应与编排
未来的AI安全系统将不仅能够检测威胁,还能够自动执行响应措施,并与现有的安全工具进行无缝集成。这将形成完整的自动化安全编排、自动化响应(SOAR)解决方案。
4. 跨领域知识融合
网络安全与其他领域的知识融合将产生新的安全解决方案。例如,结合自然语言处理技术分析恶意文档,利用计算机视觉识别可疑图像中的威胁等。
5. 人机协作的安全模式
未来的安全工作将更加注重人机协作,AI处理大规模数据分析和模式识别,人类专家专注于复杂决策和创造性问题解决。这种协作模式将充分发挥各自优势,提高整体安全防御能力。
结论
Claude Sonnet 4.5的出现标志着AI在网络安全领域从理论走向实践的重要里程碑。随着AI技术的不断进步和应用场景的扩展,网络安全防御将迎来前所未有的变革。这不仅是一场技术革命,更是安全理念和方法的根本性转变。
面对日益复杂的网络威胁,组织需要积极拥抱AI技术,将其整合到现有的安全框架中。同时,我们也需要关注AI安全带来的新挑战,确保技术的发展始终朝着增强防御能力、保护数字资产的方向前进。
在这个AI与网络安全深度融合的新时代,只有那些能够有效利用AI技术的组织,才能在激烈的网络攻防对抗中保持优势,构建真正安全、可靠的数字环境。