在人工智能(AI)技术日新月异的今天,Anthropic公司于2025年5月22日宣布启动AI安全等级3(ASL-3)保护措施,并将其应用于最新发布的Claude Opus 4模型。这一举措标志着AI安全领域进入了一个新的阶段,预示着未来AI发展将更加注重安全与伦理。Anthropic的这一决策,不仅是对自身技术负责,也是对整个社会负责的体现。\n
\n
ASL-3:更高标准的安全防护\n
ASL-3部署和安全标准是Anthropic公司《负责任的扩展策略》(RSP)中的重要组成部分。它主要包含两个方面:一是增强内部安全措施,防止模型权重被窃取;二是采取有针对性的部署措施,限制Claude被滥用于开发或获取化学、生物、放射性和核武器(CBRN)。值得注意的是,这些措施旨在精确打击潜在的恶意用途,不会对Claude的正常使用造成过多干扰。\n Anthropic公司强调,此次部署ASL-3措施是一项预防性和临时性行动。尽管尚未完全确定Claude Opus 4是否已达到需要ASL-3保护的能力阈值,但考虑到其在CBRN相关知识和能力方面的持续提升,公司认为有必要采取更为谨慎的态度。之前的模型可以明确排除ASL-3风险,但Claude Opus 4的情况更为复杂,需要更深入的研究才能最终评估其风险等级。不过,可以确定的是,Claude Opus 4尚不需要ASL-4标准,而Claude Sonnet 4也不需要ASL-3标准。\n 评估AI模型的危险能力是一项极具挑战性的任务。随着模型越来越接近令人担忧的阈值,评估过程所需的时间也越来越长。因此,主动启用更高标准的安全性能够简化模型的发布流程,同时使我们能够通过实践经验迭代改进防御措施,并减少其对用户的影响。\n
RSP:负责任扩展的基石\n
Anthropic公司的《负责任的扩展策略》(RSP)是其AI安全理念的核心。该策略强调,AI模型的能力越强,就越需要更强大的部署和安全保护措施。RSP主要关注以下两个方面:\n
- 部署措施:主要针对特定类别的滥用行为,特别是降低模型被用于攻击最具危险性的武器(CBRN)的风险。\n* 安全控制:旨在防止模型权重的盗窃,因为模型权重是AI智能和能力的核心。\n Anthropic的RSP为模型设定了能力阈值。如果模型达到这些阈值(或者我们尚未确定它们远低于这些阈值),则必须实施更高等级的AI安全等级标准。此前,Anthropic的所有模型均在AI安全等级2(ASL-2)标准下部署。ASL-2部署措施包括训练模型拒绝危险的CBRN相关请求,安全措施则包括防御机会主义的权重盗窃企图。ASL-3标准要求更高水平的防御,以应对部署和安全威胁,适用于应对复杂的非国家行为者的攻击。\n
为何选择ASL-3?\n
Anthropic公司承认,尚未完全确定Claude Opus 4的能力是否确实需要ASL-3标准的保护。然而,公司仍然决定立即实施这些保护措施。这主要是出于以下考虑:\n
- 未雨绸缪:Anthropic公司早在发布上一代模型Claude Sonnet 3.7时就预料到,未来的模型可能需要更高级别的保护。虽然Sonnet 3.7最终被认为不需要ASL-3标准,但技术进步的速度意味着未来的模型可能很快就会达到这一要求。\n* 主动防御:通过提前部署ASL-3标准,Anthropic公司可以专注于开发、测试和完善这些保护措施,从而在真正需要它们之前做好准备。\n* 符合RSP:RSP允许公司在不确定是否需要更高标准的情况下,采取更谨慎的做法,按照更高的标准部署模型。\n Anthropic公司将继续评估Claude Opus 4的CBRN能力。如果最终确定其未超过相关能力阈值,则可能会移除或调整ASL-3保护措施。\n
ASL-3部署措施:三重防线\n
新的ASL-3部署措施主要集中于防止模型协助CBRN武器相关的任务,特别是防止其协助完成端到端的CBRN工作流程。这些措施旨在限制普遍存在的“越狱”攻击,即攻击者绕过安全防护,持续提取CBRN相关信息。\n Anthropic公司采取了三管齐下的方法:\n
- 提高系统越狱难度:通过实施宪法分类器,对模型输入和输出进行实时监控,阻止有害的CBRN信息。宪法分类器是在合成数据上训练的,这些数据代表有害和无害的CBRN相关提示和完成。\n2. 检测越狱行为:建立更广泛的监控系统,包括漏洞赏金计划,以测试宪法分类器、离线分类系统和威胁情报合作伙伴,从而快速识别和响应可能导致CBRN滥用的普遍越狱行为。\n3. 迭代改进防御:利用合成越狱等方法快速修复越狱漏洞,并使用这些数据来训练新的分类器。\n 这些措施都需要不断改进,以提高其有效性,并减少对合法查询的潜在影响。尽管如此,它们代表了在防御AI能力被灾难性滥用方面取得的重大进展。\n
ASL-3安全措施:多层防护\n
Anthropic公司有针对性的安全控制主要集中于保护模型权重。这些权重是关键的数值参数,如果泄露,可能允许用户在没有部署保护的情况下访问模型。\n Anthropic公司采用了超过100种不同的安全控制措施,将预防性控制与检测机制相结合,主要针对来自复杂非国家行为者的威胁,从初始入口点到横向移动再到最终提取。这些控制措施包括模型权重访问的双重授权、增强的变更管理协议以及通过二进制允许列表实现的端点软件控制。\n 其中一项特别的控制措施是初步出口带宽控制。出口带宽控制限制了数据流出安全计算环境(AI模型权重所在的位置)。模型的组合权重体积庞大。通过限制出站网络流量的速率,这些控制措施可以利用模型权重的大小来创建安全优势。当通过异常带宽使用检测到模型权重的潜在泄露时,安全系统可以阻止可疑流量。随着时间的推移,Anthropic公司希望将速率限制降低到即使攻击者以其他方式严重破坏了系统,也很难在被检测到之前泄露模型权重的程度。实施出口带宽控制已成为理解和管理数据如何流出内部系统的强制性功能,这为检测和响应能力带来了好处。\n 与部署保护一样,Anthropic公司将继续努力提高安全控制的覆盖范围和成熟度,始终考虑到不断变化的威胁环境。特别是,公司将继续改进出口控制、针对更复杂的内部威胁的缓解措施以及整体安全态势。\n
结论与展望\n
Anthropic公司强调,如何应用部署和安全措施来保护前沿AI模型是一个远未解决的问题。公司将继续进行反思、迭代和改进。在ASL-3标准下运营的实践经验将有助于发现新的、或许意想不到的问题和机遇。\n Anthropic公司将继续与AI行业的其他公司、Claude用户以及政府和民间社会的合作伙伴合作,以改进保护这些模型的方法。公司希望其详细报告能够帮助AI行业的其他公司尝试实施类似的保护措施,并帮助所有人为更有能力的AI的承诺和挑战做好准备。 \n本文对Anthropic公司激活AI安全等级3保护措施的政策进行了详细解读。Anthropic公司在AI安全领域的积极探索和实践,为整个行业树立了榜样。随着AI技术的不断发展,我们有理由相信,在各方共同努力下,AI的未来将更加安全、可靠、可信。