Anthropic激活AI安全等级3：应对模型滥用与权重泄露的新策略

AI安全等级3（ASL-3）保护措施的激活：应对模型滥用与权重泄露的新策略

A hand sheltering a neural network

Anthropic公司于2025年5月22日宣布，随着Claude Opus 4的发布，正式启动了其《责任扩展策略》（Responsible Scaling Policy, RSP）中定义的AI安全等级3（ASL-3）部署和安全标准。此举标志着在人工智能安全领域迈出了重要一步，旨在应对日益增长的模型滥用和权重泄露风险。ASL-3安全标准着重加强内部安全措施，提高模型权重被盗取的难度；同时，相应的部署标准则精准限制Claude在化学、生物、放射性和核武器（CBRN）开发或获取方面的潜在误用。这些措施在设计上力求精准，避免对Claude的正常查询造成不必要的影响。

采取预防措施的必要性

Anthropic公司强调，部署ASL-3措施是一项预防性和临时性行动。尽管尚未完全确定Claude Opus 4已明确达到需要ASL-3保护的能力阈值，但考虑到其在CBRN相关知识和能力方面的持续提升，Anthropic认为无法像以往模型那样完全排除ASL-3风险。因此，需要进行更深入的研究以最终评估模型的风险等级。值得注意的是，Anthropic已排除Claude Opus 4需要ASL-4标准的可能性，同时也认为Claude Sonnet 4无需ASL-3标准。

对AI模型进行危险能力评估本身就极具挑战性。随着模型逼近关注阈值，评估所需的时间也会相应延长。积极采用更高级别的安全和保障措施，有助于简化模型发布流程，同时使我们能够从实践中学习，不断改进防御措施，并减少其对用户的影响。

背景

能力不断增强的AI模型需要更强有力的部署和安全保护。Anthropic的《责任扩展策略》（RSP）正是基于这一核心原则。该策略包含以下两个主要方面：

部署措施：主要针对特定类别的滥用行为。RSP尤其关注降低模型被用于攻击最具危险性的武器——CBRN的风险。
安全控制：旨在防止模型权重的盗窃。模型权重是AI智能和能力的核心。

Anthropic的RSP为模型设定了能力阈值。如果模型达到这些阈值（或者我们尚未确定它们远低于这些阈值），则必须实施更高级别的AI安全等级标准。此前，Anthropic的所有模型均在AI安全等级2（ASL-2）标准的基本保护下部署。ASL-2部署措施包括训练模型拒绝危险的CBRN相关请求，安全措施包括防御机会主义的权重窃取尝试。ASL-3标准要求针对部署和安全威胁提供更高级别的防御，以应对复杂的非国家行为者的威胁。

采取ASL-3保护措施的理由

Anthropic公司承认，尚未完全确定Claude Opus 4的能力是否确实需要ASL-3标准的保护。然而，公司为何选择现在实施这些保护措施？Anthropic表示，早在发布上一代模型Claude Sonnet 3.7时，就已预见到可能需要采取这一行动。虽然当时的评估结果显示该模型无需ASL-3标准的保护，但Anthropic已明确指出，考虑到技术发展的迅速，未来的模型极有可能需要这些强化措施。因此，在发布Claude Opus 4之前，Anthropic积极决定在ASL-3标准下发布该模型。这种前瞻性方法使Anthropic能够在新措施真正需要之前，集中精力开发、测试和完善这些保护措施。

这种方法也符合RSP，该策略允许Anthropic谨慎行事，并在高于确信所需标准的级别下部署模型。这意味着积极执行ASL-3安全和部署标准（并排除对更高级保护的需求）。Anthropic将继续评估Claude Opus 4的CBRN能力。如果最终确定Claude Opus 4尚未超过相关的能力阈值，则可能会取消或调整ASL-3保护措施。

部署措施详解

新的ASL-3部署措施主要针对防止模型协助执行令人担忧的CBRN武器相关任务，特别是协助完成端到端的CBRN工作流程，从而加剧在没有大型语言模型的情况下已然存在的风险。这包括限制通用越狱——允许攻击者绕过安全措施并持续提取增强工作流程的CBRN相关信息的系统性攻击。根据Anthropic的基础威胁模型，ASL-3部署措施并非旨在解决与CBRN无关的问题，防御非通用越狱，或阻止提取常见的单一信息，例如“沙林的化学式是什么？”（尽管它们可能无意中阻止这种情况）。鉴于不断演变的威胁形势，Anthropic预计会发现新的越狱，因此需要快速迭代和改进系统。

Anthropic开发了一种三管齐下的方法：

提高系统越狱难度：实施宪法分类器——一种实时分类器保护系统，该系统基于合成数据进行训练，这些数据代表有害和无害的CBRN相关提示和完成，用于监控模型输入和输出，并介入以阻止一小部分有害的CBRN信息。Anthropic的预生产测试表明，可以在大幅降低越狱成功率的同时，仅为正常运营增加适度的计算开销（超出模型推理所需的额外处理成本）。
检测越狱行为：建立更广泛的监控系统，包括漏洞赏金计划，该计划侧重于对宪法分类器、离线分类系统以及威胁情报合作伙伴进行压力测试，以快速识别和响应可能导致CBRN滥用的潜在通用越狱。
迭代改进防御：通过生成类似于已发现的合成越狱，并使用这些数据来训练新的分类器等方法，快速修复越狱。

所有这些措施都需要不断改进，以提高其有效性，并减少它们偶尔会影响合法查询的可能性（即，它们可能产生误报）。尽管如此，它们代表了在防御AI能力被灾难性滥用方面的一大进步。

安全措施详解

Anthropic公司有针对性的安全控制侧重于保护模型权重——关键的数值参数，一旦泄露，用户无需部署保护即可访问模型。Anthropic的方法包括100多种不同的安全控制，这些控制将预防性控制与检测机制相结合，主要针对来自复杂非国家行为者的威胁，包括从初始进入点到横向移动再到最终提取的各个环节。这些控制措施包括模型权重访问的双重授权、增强的变更管理协议以及通过二进制允许列表实现的端点软件控制等，这些都是遵循其他具有安全意识的组织建立的最佳实践的示例。

然而，有一种控制措施对于保护模型权重这一目标而言更为独特：Anthropic公司已实施初步出口带宽控制。出口带宽控制限制了数据从安全计算环境（AI模型权重驻留地）流出的速度。模型的组合权重体积庞大。通过限制出站网络流量的速率，这些控制可以利用模型权重的大小来创建安全优势。当通过异常带宽使用检测到潜在的模型权重泄露时，安全系统可以阻止可疑流量。随着时间的推移，Anthropic预计速率限制将降低到即使攻击者以其他方式严重破坏了系统，也很难在被发现之前泄露模型权重的程度。实施出口带宽控制已成为理解和管理数据如何在内部系统之外流动的一种强制性职能，这为检测和响应能力带来了好处。

与部署保护一样，Anthropic公司一直在努力改进安全控制的覆盖范围和成熟度，同时始终考虑到不断变化的威胁形势。特别是，Anthropic将继续改进出口控制、针对更复杂的内部威胁的缓解措施以及整体安全态势。

结论

正如上文强调的那样，关于对前沿AI模型应用哪些部署和安全措施的问题远未解决。Anthropic将继续反思、迭代和改进。在ASL-3标准下运营的实践经验将帮助Anthropic发现新的、可能意想不到的问题和机遇。

Anthropic将继续与AI行业的其他公司、Claude用户以及政府和民间社会的合作伙伴合作，以改进保护这些模型的方法。Anthropic希望详细的报告将对试图实施类似保护措施的AI行业的其他公司有所帮助，并帮助所有人为更强大的AI的希望和挑战做好准备。

总而言之，Anthropic公司激活AI安全等级3（ASL-3）保护措施，不仅是对Claude Opus 4模型安全性的升级，更是对整个AI安全领域的一次重要探索和实践。通过部署宪法分类器、漏洞赏金计划以及出口带宽控制等一系列创新措施，Anthropic公司正努力构建一个更加安全、可信赖的AI生态系统，为AI技术的健康发展奠定坚实的基础。

未来展望

展望未来，Anthropic公司将继续与业界同仁、用户以及政府部门紧密合作，共同应对AI安全领域的挑战。一方面，Anthropic公司将不断优化现有的安全措施，提升其有效性和适应性；另一方面，Anthropic公司也将积极探索新的安全技术和策略，以应对日益复杂和多变的威胁形势。通过持续的创新和合作，Anthropic公司致力于为AI技术的安全应用保驾护航，确保AI技术能够真正服务于人类社会，为人类带来福祉。

此外，Anthropic公司也呼吁整个AI行业加强合作，共同制定AI安全标准和规范，建立健全的AI安全评估体系。只有通过全行业的共同努力，才能有效地应对AI安全风险，确保AI技术的健康发展。

行业影响

Anthropic公司激活AI安全等级3（ASL-3）保护措施的举动，无疑将对整个AI行业产生深远的影响。一方面，这将促使其他AI公司更加重视AI安全问题，加大在安全技术研发和部署方面的投入；另一方面，这也将推动AI安全标准的制定和完善，为AI技术的健康发展提供更加明确的指导。

可以预见的是，随着AI技术的不断发展和应用，AI安全问题将变得越来越重要。只有通过全行业的共同努力，才能有效地应对AI安全风险，确保AI技术能够真正服务于人类社会，为人类带来福祉。

结语

Anthropic公司激活AI安全等级3（ASL-3）保护措施，是AI安全领域的一个重要里程碑。这不仅是对Anthropic公司自身技术实力的一次检验，也是对整个AI行业的一次警醒和推动。相信在Anthropic公司以及其他AI公司的共同努力下，AI技术将能够更加安全、可靠地服务于人类社会，为人类创造更加美好的未来。