Anthropic启动AI安全等级3:Claude Opus 4模型应对CBRN风险

0

在人工智能(AI)领域,Anthropic公司于2025年5月22日宣布启动AI安全等级3(ASL-3)的部署和安全标准,并将其应用于最新的Claude Opus 4模型。这一举措是Anthropic公司在负责任的AI发展道路上的重要一步,旨在应对日益增长的AI能力可能带来的潜在风险,尤其是在化学、生物、放射性和核武器(CBRN)领域的滥用。

A hand sheltering a neural network

AI安全等级3:更高标准的防御

ASL-3标准的启动,意味着Anthropic公司在内部安全措施上进行了全面升级,旨在更有效地防止模型权重被窃取。同时,ASL-3的部署标准也更加严格,主要针对Claude模型可能被滥用于开发或获取CBRN武器的风险。这些措施旨在尽可能地缩小影响范围,避免对正常用户查询造成不必要的限制。

尽管Anthropic公司尚未完全确定Claude Opus 4是否已达到需要ASL-3保护的能力阈值,但考虑到其在CBRN相关知识和能力方面的持续提升,公司决定采取预防措施,先行启动ASL-3标准。这表明Anthropic公司对潜在风险的重视,以及在AI安全问题上的审慎态度。值得一提的是,经过评估,Claude Opus 4并不需要ASL-4标准,而Claude Sonnet 4也不需要ASL-3标准。

应对AI风险的挑战

评估AI模型的潜在危险能力是一项极具挑战性的任务。随着模型能力的不断提升,确定其风险等级所需的时间也越来越长。Anthropic公司选择主动启用更高安全标准的做法,旨在简化模型发布流程,并通过实践不断改进防御措施,降低对用户的潜在影响。这种积极主动的态度,有助于更好地应对AI发展带来的不确定性。

负责任的扩展策略(RSP)

Anthropic公司的负责任的扩展策略(RSP)是其应对AI风险的核心。RSP强调,随着AI模型能力的提升,应采取更强有力的部署和安全保护措施。RSP主要关注以下两个方面:

  1. 部署措施:主要针对特定类别的滥用行为,特别是降低模型被滥用于CBRN武器攻击的风险。
  2. 安全控制:旨在防止模型权重的盗窃,因为模型权重是AI智能和能力的核心。

Anthropic公司的RSP为模型设定了能力阈值。如果模型达到这些阈值,或者尚未确定其远低于这些阈值,则必须实施更高等级的AI安全标准。在此之前,Anthropic公司的所有模型均在AI安全等级2(ASL-2)的标准下部署。ASL-2的部署措施包括训练模型拒绝危险的CBRN相关请求,安全措施包括防御机会主义的权重窃取尝试。ASL-3标准则要求更高水平的防御,以应对复杂的非国家行为者的威胁。

启动ASL-3的原因

尽管尚未完全确定Claude Opus 4的能力是否需要ASL-3标准的保护,但Anthropic公司仍然决定实施这些保护措施。这一决定的主要原因在于,AI技术的快速发展使得评估模型风险变得更加复杂。Anthropic公司希望通过提前部署ASL-3标准,以便在真正需要时能够更加从容地应对潜在风险。

此外,RSP允许Anthropic公司在不确定是否需要更高标准的情况下,采取更谨慎的做法,按照更高标准部署模型。在这种情况下,这意味着主动执行ASL-3的安全和部署标准,并排除对更高级别保护的需求。Anthropic公司将继续评估Claude Opus 4的CBRN能力。如果评估结果表明Claude Opus 4尚未超过相关的能力阈值,则可能会取消或调整ASL-3的保护措施。

部署措施:三重防御体系

新的ASL-3部署措施主要针对防止模型协助执行与CBRN武器相关的任务,特别是防止模型以超出已有能力的方式协助完成端到端的CBRN工作流程。这包括限制通用越狱——即允许攻击者绕过安全措施并持续提取CBRN相关信息的系统性攻击。根据潜在的威胁模型,ASL-3的部署措施并不旨在解决与CBRN无关的问题,防御非通用越狱,或阻止提取常见的单条信息,例如“沙林的化学式是什么?”。

Anthropic公司开发了一种三管齐下的方法:

  1. 提高系统越狱难度:实施宪法分类器——一种实时分类器保护系统,该系统基于合成数据进行训练,这些数据代表有害和无害的CBRN相关提示和完成,用于监控模型输入和输出,并干预以阻止一小部分有害的CBRN信息。预生产测试表明,这可以在大幅降低越狱成功率的同时,仅为正常运行增加适度的计算开销(除了模型推理所需的额外处理成本)。
  2. 检测已发生的越狱:建立更广泛的监控系统,包括漏洞赏金计划,重点是压力测试宪法分类器、离线分类系统和威胁情报合作伙伴关系,以快速识别和响应可能导致CBRN滥用的潜在通用越狱。
  3. 不断改进防御:使用包括生成类似于已发现的合成越狱的方法,并使用这些数据来训练新的分类器,从而快速修复越狱。

所有这些措施都需要不断改进,既要提高其有效性,也要避免对合法查询产生不必要的影响(即产生误报)。尽管如此,这些措施代表了在防御AI能力被灾难性滥用方面取得的重大进展。

安全措施:多层防护体系

Anthropic公司有针对性的安全控制主要集中在保护模型权重上。如果模型权重遭到泄露,用户就可以在没有部署保护的情况下访问模型。Anthropic公司采取的方法包括100多种不同的安全控制措施,这些措施将预防性控制与检测机制相结合,主要针对来自复杂非国家行为者的威胁,从初始入口点到横向移动再到最终提取。这些控制措施包括模型权重访问的双重授权、增强的变更管理协议以及通过二进制允许列表实现的端点软件控制等。

其中一项控制措施是出口带宽控制。出口带宽控制限制了数据流出AI模型权重所在的计算环境。模型的组合权重非常大。通过限制出站网络流量的速率,这些控制措施可以利用模型权重的大小来创建安全优势。当通过异常带宽使用检测到模型权重可能被盗时,安全系统可以阻止可疑流量。随着时间的推移,Anthropic公司希望将速率限制降低到在被检测到之前难以泄露模型权重的程度——即使攻击者以其他方式严重破坏了系统。实施出口带宽控制是了解和管理数据如何在内部系统之外流动的一种强制功能,这为检测和响应能力带来了好处。

与部署保护一样,Anthropic公司将继续努力改进安全控制的覆盖范围和成熟度,始终考虑到不断变化的威胁形势。特别是,将继续改进出口控制、针对更复杂的内部威胁的缓解措施以及整体安全态势。

结论与展望

Anthropic公司强调,如何对前沿AI模型应用部署和安全措施的问题远未解决。Anthropic公司将继续反思、迭代和改进。在ASL-3标准下运营的实践经验将有助于发现新的和可能意想不到的问题和机会。Anthropic公司将继续与AI行业的其他公司、Claude用户以及政府和民间社会合作伙伴合作,以改进保护这些模型的方法。Anthropic公司希望详细的报告对试图实施类似保护措施的AI行业其他公司有所帮助,并帮助所有人为更有能力的AI的承诺和挑战做好准备。

总的来说,Anthropic公司积极部署AI安全等级3(ASL-3)的举措,体现了其在AI安全和伦理方面的责任感和前瞻性。通过不断改进部署措施和安全控制,Anthropic公司致力于构建更加安全、可靠和负责任的AI生态系统,为AI技术的健康发展奠定坚实基础。

Read the full report.

Footnotes

1The RSP is only one component of our approach to mitigating potential risks.

2In particular, we had some evidence of improved CBRN-related capabilities. Experiments showed that access to Claude Sonnet 3.7 helped participants do somewhat better on tasks related to CBRN weapon acquisition than those with standard internet access (although all participants’ plans still had critical failures). Model performance on evaluations like the Virology Capabilities Test had been steadily increasing over time.

3Initially they are focused exclusively on biological weapons as we believe these account for the vast majority of the risk, although we are evaluating a potential expansion in scope to some other CBRN threats.

4 We have also established access control systems so that users with dual-use science and technology applications may be vetted to receive targeted exemptions from some classifier actions.

5For more information on our assessment of the effectiveness and sufficiency of these measures, see the ASL-3 Deployment Safeguards Report.

6Nation-state threats (other than those using non-novel attack chains) and sophisticated insider risk are out of the scope of the ASL-3 Standard.