Anthropic启动AI安全3级防护：Claude Opus 4模型安全升级

在人工智能（AI）领域，安全防护等级的提升已成为确保技术健康发展的关键一环。Anthropic公司于2025年5月22日宣布，其最新模型Claude Opus 4已启动AI安全等级3（ASL-3）的部署和安全标准，这标志着AI安全防护进入了一个新的阶段。

A hand sheltering a neural network

AI安全等级3（ASL-3）的核心要点

Anthropic的责任扩展策略（RSP）中详细描述了ASL-3的部署和安全标准。此次启动ASL-3，主要涉及以下几个方面：

增强内部安全措施：通过提高内部安全级别，增加模型权重被盗的难度，从而保护AI的核心智能。
针对性部署措施：主要针对化学、生物、放射性和核武器（CBRN）的开发或获取，限制Claude被滥用的风险。这些措施旨在精确打击潜在的危险应用，而非全面禁止。

值得注意的是，Anthropic公司强调，部署ASL-3是一个预防性和临时性措施。目前尚未完全确定Claude Opus 4是否已达到需要ASL-3保护的能力阈值。然而，考虑到CBRN相关知识和能力的持续提升，以及对模型风险进行全面评估所需的时间，Anthropic决定采取这一更为谨慎的策略。

为何选择ASL-3？

Anthropic的这一决策并非草率。事实上，早在发布Claude Sonnet 3.7时，该公司就已预见到未来模型可能需要更高级别的安全保护。尽管Sonnet 3.7最终并未达到ASL-3的标准，但技术进步的快速步伐使得Anthropic不得不提前做好准备。

通过主动启用ASL-3标准，Anthropic能够在模型发布前，有更多的时间来开发、测试和完善安全保护措施。这种前瞻性的方法不仅符合RSP的精神，也允许Anthropic在实践中不断学习，迭代改进防御体系，并最大限度地减少对用户的潜在影响。

部署措施：三重防线

ASL-3的部署措施主要集中在防止模型被用于CBRN武器相关的恶意任务。这些措施并非旨在解决与CBRN无关的问题，或防御非普遍的越狱攻击，而是专注于防止模型被用于构建完整的、端到端的CBRN工作流程。

Anthropic采取了三管齐下的方法来应对这一挑战：

安全控制：多层防御体系

ASL-3的安全控制主要集中在保护模型权重，防止未经授权的访问。Anthropic实施了超过100种不同的安全控制措施，包括预防性控制和检测机制，旨在抵御来自复杂非国家行为者的威胁。

这些控制措施包括：

此外，Anthropic还实施了出口带宽控制，限制数据流出安全计算环境的速度。通过限制出站网络流量的速率，可以有效地阻止模型权重的非法泄露。

持续改进与合作

Anthropic强调，AI模型的部署和安全措施是一个不断发展的领域。该公司将继续进行反思、迭代和改进，通过实践经验发现新的问题和机会。

此外，Anthropic还积极与其他AI行业参与者、用户以及政府和民间社会的合作伙伴合作，共同改进模型保护方法。希望通过分享经验和知识，共同应对AI发展带来的挑战。

Anthropic经济期货计划

除了安全措施的提升，Anthropic还在积极探索AI在经济领域的应用。2025年6月27日，Anthropic推出了经济期货计划，旨在利用AI技术预测和分析经济趋势，为决策者提供更准确的参考。

Claude的多元应用

Claude作为Anthropic的核心模型，已被广泛应用于各个领域。除了在经济领域的应用，Claude还被用于提供支持、建议和陪伴。许多用户通过Claude获取信息、解决问题，甚至寻求情感支持。这种多元化的应用场景展示了AI的巨大潜力。

利用Claude构建AI驱动的应用

Anthropic还致力于将Claude打造成一个开放的平台，允许开发者利用其强大的功能构建AI驱动的应用。通过开放API和工具，Anthropic希望能够激发创新，推动AI技术的普及。

结论

Anthropic公司启动AI安全等级3（ASL-3）的部署和安全标准，是AI安全领域的重要里程碑。这一举措不仅提升了模型的安全性，也为整个行业树立了榜样。通过不断改进安全措施、加强合作，以及探索AI的多元应用，Anthropic正在为AI的可持续发展做出积极贡献。