Anthropic启动AI安全3级保护: Claude Opus 4能否重塑AI安全格局?

1

在人工智能飞速发展的时代,模型安全问题日益凸显。Anthropic公司于2025年5月22日宣布,针对其最新模型Claude Opus 4启动AI安全等级3(ASL-3)保护措施。这一举措不仅是对模型自身安全性的升级,更是对人工智能潜在风险的深刻反思和积极应对。

A hand sheltering a neural network

ASL-3:更高等级的安全防护

Anthropic的责任扩展政策(RSP)是其安全措施的核心。ASL-3标准的实施,意味着在模型部署和安全控制方面都将采取更为严格的措施。具体而言,ASL-3的安全标准包括加强内部安全措施,提高窃取模型权重的难度;部署标准则侧重于限制Claude被滥用于开发或获取化学、生物、放射性和核武器(CBRN)的风险。这些措施旨在尽可能减少模型被恶意利用的可能性,同时避免对正常用户体验造成过多干扰。

此次 Claude Opus 4 部署 ASL-3 措施是一项预防性和临时性行动。需要明确的是,Anthropic 尚未最终确定 Claude Opus 4 是否已明确通过需要 ASL-3 保护的能力阈值。相反,由于与 CBRN 相关的知识和能力不断提高,我们已确定无法像以前的每个模型那样明确排除 Claude Opus 4 的 ASL-3 风险,并且需要更详细的研究才能最终评估模型的风险级别。(我们已经排除了 Claude Opus 4 需要 RSP 要求的 ASL-4 标准,并且类似地,我们已经排除了 Claude Sonnet 4 需要 ASL-3 标准。)

Anthropic 强调,启动ASL-3并非表示Claude Opus 4已经完全达到需要这种级别保护的程度。相反,这是在模型能力不断增强的背景下,一种更为谨慎的做法。由于CBRN相关知识和能力的快速发展,Anthropic认为无法像以往那样完全排除Claude Opus 4的ASL-3风险。因此,公司决定采取先发制人的措施,以便更全面地评估模型风险,并为未来的安全升级做好准备。

风险评估的挑战与应对

对人工智能模型进行危险能力评估本身就具有挑战性,并且随着模型接近我们关注的阈值,确定其状态需要更长的时间。主动启用更高标准的安全性可以简化模型发布,同时允许我们通过迭代改进我们的防御并减少它们对用户的影响来从经验中学习。

评估AI模型的潜在危险能力是一项复杂而艰巨的任务。随着模型能力的提升,评估过程所需的时间也随之增加。Anthropic选择主动启用更高等级的安全标准,旨在简化模型发布流程,同时通过实践经验不断改进防御措施,减少对用户体验的潜在影响。这种方法体现了Anthropic对风险的深刻认识和积极应对。

RSP:应对AI风险的核心策略

日益强大的人工智能模型需要越来越强大的部署和安全保护。这一原则是 Anthropic 负责任的扩展政策 (RSP) 的核心。

  • 部署措施 针对特定类别的滥用;特别是,我们的 RSP 侧重于降低模型可能被滥用于最危险类别武器(CBRN)攻击的风险。
  • 安全控制 旨在防止模型权重的盗窃——人工智能的智能和能力的基础。

Anthropic 的 RSP 包括模型的_能力阈值_:如果模型达到这些阈值(或者如果我们尚未确定它们充分低于这些阈值),我们必须实施更高水平的_AI 安全级别标准_。到目前为止,我们所有的模型都已在 AI 安全级别 2 (ASL-2) 标准的基线保护下部署。ASL-2 部署措施包括训练模型以拒绝危险的 CBRN 相关请求。ASL-2 安全措施包括防御机会主义者窃取权重的企图。ASL-3 标准要求针对部署和安全威胁提供更高水平的防御,适用于复杂的非国家攻击者。

Anthropic的RSP是应对AI风险的核心策略,它包括以下两个关键要素:

  1. 部署措施:针对特定类型的滥用行为,特别是防止模型被用于CBRN武器的开发和使用。
  2. 安全控制:旨在保护模型权重不被窃取,这是AI智能和能力的基础。

根据RSP,如果模型达到特定的能力阈值,或者无法确定其能力远低于该阈值,则必须实施更高等级的AI安全标准。此前,Anthropic的所有模型都部署在ASL-2标准下,该标准包括训练模型拒绝CBRN相关请求,以及防御机会主义者的权重窃取行为。ASL-3标准则要求针对部署和安全威胁提供更高水平的防御,以应对复杂的非国家行为者的潜在攻击。

为何选择ASL-3?

我们尚未确定 Claude Opus 4 的功能是否确实需要 ASL-3 标准的保护。那么我们为什么现在要实施这些保护措施呢?当我们推出我们的最后一个模型 Claude Sonnet 3.7 时,我们预计我们可能会这样做。在这种情况下,我们确定该模型不需要 ASL-3 标准的保护。但是我们承认,考虑到进步的速度,在不久的将来,模型可能会需要这些增强的措施。事实上,在发布 Claude Opus 4 之前,我们主动决定在 ASL-3 标准下发布它。这种方法使我们能够在需要这些保护措施之前专注于开发、测试和改进这些保护措施。

这种方法也符合 RSP,它允许我们谨慎行事,并在高于我们确定需要的标准下部署模型。在这种情况下,这意味着主动执行 ASL-3 安全和部署标准(并排除对更高级保护的需求)。我们将继续评估 Claude Opus 4 的 CBRN 功能。如果我们得出结论,Claude Opus 4 没有超过相关的能力阈值,那么我们可能会删除或调整 ASL-3 保护措施。

Anthropic之所以选择实施ASL-3保护,是出于对潜在风险的谨慎考虑。尽管尚未完全确定Claude Opus 4的能力是否需要这种级别的保护,但Anthropic认为,在模型发布前开发、测试和完善这些保护措施是更为明智的选择。这种做法也符合RSP的精神,即允许公司在高于确定需要的标准下部署模型,以确保安全。

Anthropic将继续评估Claude Opus 4的CBRN相关能力。如果最终确定该模型并未超过相关的能力阈值,则可能会移除或调整ASL-3保护措施。

部署措施:三重防线

新的 ASL-3 部署措施狭义地侧重于防止该模型协助执行相关的 CBRN 武器相关任务,特别是以一种添加到没有大型语言模型已经可以实现的方式来协助执行扩展的_端到端_ CBRN 工作流程。这包括限制_通用越狱_——允许攻击者绕过我们的护栏并持续提取增强工作流程的 CBRN 相关信息的长链的系统性攻击。与我们潜在的威胁模型一致,ASL-3 部署措施并非旨在解决与 CBRN 无关的问题,以防御非通用越狱,或防止提取常见的单个信息,例如“沙林的化学式是什么?”的答案(虽然它们可能会顺便阻止这种情况)。鉴于不断演变的威胁环境,我们预计会发现新的越狱,并且我们需要随着时间的推移快速迭代和改进我们的系统。

我们开发了一种三部分方法:使系统更难以越狱、检测何时发生越狱以及迭代改进我们的防御。

  • 使系统更难以越狱。 我们已经实施了宪法分类器——一个系统,其中实时分类器保护,在代表有害和无害 CBRN 相关提示和完成的合成数据上训练,监控模型输入和输出,并介入以阻止狭窄类别的有害 CBRN 信息。我们的预生产测试表明,我们可以在大幅降低越狱成功率的同时,仅为正常运行增加适度的计算开销(超出模型推理所需的额外处理成本)。
  • 检测何时发生越狱。 我们还建立了一个更广泛的监控系统,包括一个专注于压力测试我们的宪法分类器的漏洞赏金计划、离线分类系统和威胁情报合作伙伴关系,以快速识别和响应可能导致 CBRN 滥用的潜在通用越狱。
  • 迭代改进我们的防御。 我们认为,我们可以使用包括生成类似于我们发现的合成越狱并使用这些数据来训练新分类器在内的方法快速修复越狱。

新的ASL-3部署措施主要关注防止模型协助执行CBRN武器相关的任务,特别是协助完成端到端的CBRN工作流程。这包括限制“通用越狱”——即允许攻击者绕过安全防护,持续提取CBRN相关信息的系统性攻击。

为了应对这些威胁,Anthropic开发了一种三管齐下的方法:

  1. 增强系统防御:通过实施宪法分类器,实时监控模型输入和输出,阻止有害的CBRN信息。
  2. 实时检测越狱:建立更广泛的监控系统,包括漏洞赏金计划和威胁情报合作,以快速识别和响应潜在的通用越狱。
  3. 迭代改进防御:利用合成越狱等方法,快速修复已发现的漏洞,并不断更新分类器。

所有这些措施都需要不断改进,既要提高其有效性,因为它们可能偶尔仍会影响合法的查询(即,它们可能会产生误报)。尽管如此,它们代表了在防御人工智能能力可能造成的灾难性滥用方面取得的重大进展。

这些措施需要不断改进,以提高有效性,并减少对合法查询的潜在影响。尽管如此,它们代表了在防御AI能力被滥用方面的重要进展。

安全控制:多层次防护体系

我们有针对性的安全控制侧重于保护模型权重——如果受到威胁,关键的数字参数可能允许用户在没有部署保护的情况下访问我们的模型。我们的方法涉及 100 多种不同的安全控制,这些控制将预防性控制与检测机制相结合,主要针对来自复杂非国家行为者的威胁,从初始入口点到横向移动再到最终提取。许多此类控制,例如模型权重访问的双重授权、增强的变更管理协议以及通过二进制允许列表的端点软件控制,都是遵循其他具有安全意识的组织建立的最佳实践的示例。

然而,有一项控制对于保护模型权重的目标而言更为独特:我们已经实施了初步的出口带宽控制。出口带宽控制限制了数据流出 AI 模型权重所在的计算环境的流量。模型的组合权重在大小上很大。通过限制出站网络流量的速率,这些控制可以利用模型权重大小来创建安全优势。当通过异常带宽使用检测到模型权重的潜在泄露时,安全系统可以阻止可疑流量。随着时间的推移,我们希望达到这样的程度:速率限制足够低,以至于在被检测到之前提取模型权重非常困难——即使攻击者以其他方式严重破坏了我们的系统。实施出口带宽控制一直是了解和管理数据如何在我们的内部系统之外流动的一种强制功能,这为我们的检测和响应能力带来了好处。

Anthropic的安全控制体系包括超过100种不同的安全措施,将预防性控制与检测机制相结合,主要针对来自复杂非国家行为者的威胁。这些措施包括:

  • 模型权重访问的双重授权
  • 增强的变更管理协议
  • 通过二进制允许列表的端点软件控制

此外,Anthropic还实施了出口带宽控制,限制数据流出安全计算环境的流量。通过限制出站网络流量的速率,可以利用模型权重的大小来创建安全优势,从而及时发现和阻止潜在的模型权重泄露。

与部署保护一样,我们正在继续努力改进我们的安全控制的覆盖范围和成熟度,始终考虑到不断变化的威胁环境。特别是,我们将继续改进我们的出口控制、针对更复杂的内部威胁的缓解措施以及我们的整体安全态势。

与部署保护措施一样,Anthropic将继续改进安全控制的覆盖范围和成熟度,并不断关注不断演变的威胁环境。公司将特别关注改进出口控制、针对复杂内部威胁的缓解措施以及整体安全态势。

结论与展望

正如我们在上面强调的那样,将哪些部署和安全措施应用于前沿人工智能模型的问题远未解决。我们将继续进行内省、迭代和改进。在 ASL-3 标准下运营的实践经验将帮助我们发现新的和可能意想不到的问题和机会。

我们将不断与人工智能行业的其他公司、Claude 的用户以及政府和民间社会的合作伙伴合作,以改进我们保护这些模型的方法。我们希望我们的详细报告能够帮助人工智能行业中试图实施类似保护措施的其他人,并帮助我们所有人为更有能力的人工智能的承诺和挑战做好准备。

正如Anthropic所强调的,如何为前沿AI模型选择合适的部署和安全措施仍然是一个开放的问题。公司将继续进行反思、迭代和改进,并通过在ASL-3标准下的实践经验,发现新的机遇和挑战。

Anthropic将与AI行业的其他参与者、Claude用户以及政府和民间社会合作伙伴保持合作,共同改进模型保护方法,并为未来更强大AI的机遇和挑战做好准备。

总的来说,Anthropic启动AI安全等级3保护措施,不仅是对模型安全的一次升级,更是对人工智能发展道路上潜在风险的一次深刻反思。通过持续的技术创新和积极的风险管理,我们有理由相信,人工智能的未来将更加安全、可靠和可控。