AI安全新纪元:Anthropic与美英政府机构合作强化防护体系

0

在人工智能技术迅猛发展的今天,如何确保AI系统的安全性和可靠性已成为行业面临的核心挑战。2025年9月,Anthropic公司宣布与美国CAISI(人工智能标准与创新中心)和英国AISI(人工智能安全研究所)建立了深度合作关系,共同致力于提升AI系统的安全防护能力。这一合作标志着AI安全领域公私合作模式的重大突破,为行业树立了新的标杆。

背景介绍:AI安全合作的必要性

过去一年中,Anthropic与美国CAISI和英国AISI这两个政府机构展开了密切合作。这些政府机构专门成立,旨在评估和改进AI系统的安全性。双方的合作最初始于初步咨询,但随着时间的推移,已发展为持续性的伙伴关系。CAISI和AISI团队获得了Anthropic系统在各个模型开发阶段的访问权限,使其能够持续测试系统的安全性。

政府在AI安全领域拥有独特优势,特别是在网络安全、情报分析和威胁建模等国家安全领域拥有深厚的专业知识。结合他们的机器学习专长,政府机构能够评估特定的攻击向量和防御机制。他们的反馈帮助Anthropic改进安全措施,使系统能够抵御最复杂的滥用尝试。

与独立外部专家合作识别AI系统中的漏洞,是Anthropic安全防护方法的核心部分,对于防止模型可能造成的实际伤害至关重要。

漏洞发现与修复:合作成果显著

AI安全测试

此次合作已经取得了关键发现,帮助Anthropic强化了防止模型恶意使用的工具。根据与CAISI和AISI的协议,每个组织在部署前对多个版本的宪法分类器(Constitutional Classifiers)进行了评估,这些分类器是Anthropic用来识别和防止越狱攻击的防御系统,应用于Claude Opus 4和4.1等模型。

宪法分类器的测试

Anthropic向CAISI和AISI提供了多个早期版本的宪法分类器访问权限,并在持续改进过程中继续提供最新系统的访问。双方共同对这些分类器进行了压力测试,政府红队成员在部署前后都发现了各种漏洞,而Anthropic技术团队则利用这些发现强化安全措施。发现的漏洞包括:

1. 提示注入漏洞的发现 政府红队成员通过提示注入攻击发现了早期分类器的弱点。这类攻击使用隐藏指令来诱使模型执行系统设计者未预期的行为。测试人员发现,特定注释(如虚假声称已完成人工审查)可以完全绕过分类器检测。Anthropic已修补这些漏洞。

2. 安全架构的压力测试 测试人员开发了一种复杂的通用越狱方法,通过规避标准检测方式编码有害交互。这一发现促使Anthropic从根本上重构安全架构,以解决底层漏洞类别,而非仅仅修补个别漏洞。

3. 基于密码学的攻击识别 使用密码学、字符替换和其他混淆技术编码有害请求,以规避分类器。这些发现推动了检测系统的改进,使其能够识别和阻止无论采用何种编码方式的伪装有害内容。

4. 输入输出混淆攻击 测试人员发现了使用针对特定防御的复杂混淆方法的通用越狱技术,例如将有害字符串分解为更广泛背景中看似无害的组件。识别这些盲点使Anthropic能够有针对性地改进过滤机制。

5. 自动化攻击优化 构建了新的自动化系统,能够逐步优化攻击策略。他们最近使用该系统通过迭代改进一个效果较差的越狱方法,生成了有效的通用越狱,Anthropic利用这一发现改进了安全措施。

评估与风险方法论

除了识别特定漏洞外,CAISI和AISI团队还帮助强化了Anthropic在安全方面的更广泛方法。他们对证据要求、部署监控和快速响应能力的外部视角,在压力测试假设和识别可能需要额外证据支持威胁模型的领域方面具有宝贵价值。

有效合作的关键经验

通过此次合作,Anthropic学到了关于如何与政府研究和标准机构有效互动以提高模型安全性的重要经验。

全面模型访问增强红队测试效果

经验表明,向政府红队提供更深入的系统访问权限能够发现更复杂的漏洞。Anthropic提供了几个关键资源:

1. 部署前安全防护原型 测试人员能够在防护系统上线前进行评估和迭代,在安全措施部署前发现弱点。

2. 多种系统配置 Anthropic提供了从完全无保护到具有完整安全措施的模型。这种方法使测试人员能够先针对基础模型开发攻击,然后逐步改进技术以绕过日益复杂的防御。仅帮助模型变体还实现了有害输出的精确评分和能力基准测试。

3. 广泛的文档和内部资源 Anthropic向可信的政府红队提供了安全架构细节、记录的漏洞、安全报告和细粒度内容政策信息(包括特定禁止请求和评估标准)。这种透明性帮助团队针对高价值测试区域进行测试,而非盲目寻找弱点。

4. 实时安全数据加速漏洞发现 Anthropic向政府红队直接提供了分类器分数访问权限,使他们能够改进攻击策略并进行更有针对性的探索性研究。

迭代测试实现复杂漏洞发现

尽管单次评估具有价值,但持续合作使外部系统能够开发深入的系统专业知识并发现更复杂的漏洞。在关键阶段,Anthropic与合作伙伴保持了每日沟通渠道和频繁的技术深入交流。

互补方法提供更强大的安全性

CAISI和AISI的评估与更广泛的生态系统协同工作。公共漏洞赏金项目从广泛的人才库中生成大量多样化的漏洞报告,而专业专家团队则可以帮助发现需要深厚技术知识才能识别的复杂、微妙的攻击向量。这种多层策略有助于确保同时捕获常见漏洞和复杂的边缘情况。

持续合作:开创AI安全新范式

AI安全合作

使强大的AI模型安全有益不仅需要技术创新,还需要行业与政府之间新型合作形式。Anthropic的经验表明,当技术团队紧密合作以识别和解决风险时,公私合作伙伴关系最为有效。

随着AI能力的提升,独立评估缓解措施的作用日益重要。Anthropic对其他AI开发者也在与这些政府机构合作感到鼓舞,并鼓励更多公司这样做并更广泛地分享他们的经验。

此次合作的成功经验为AI行业提供了宝贵启示:

  1. 开放与合作是AI安全的关键:封闭的系统难以发现所有潜在漏洞,开放合作能够汇集多方智慧,共同构建更安全的AI系统。

  2. 政府机构在AI安全评估中具有独特价值:政府机构在国家安全领域的专业知识与AI技术相结合,能够发现企业内部可能忽视的漏洞类型。

  3. 持续迭代比一次性评估更有效:AI安全是一个动态过程,需要持续的合作和测试,而非一次性的安全评估。

  4. 多层次安全防护的必要性:结合公共漏洞赏金、专业团队评估和内部安全措施的多层防护策略,能够更全面地应对各种安全威胁。

未来展望:AI安全合作的深化

Anthropic与美英政府机构的合作模式为AI行业树立了标杆,未来这种合作有望进一步深化和扩展:

  1. 扩大合作范围:随着更多AI公司加入,合作网络将不断扩大,形成更全面的AI安全评估体系。

  2. 标准化评估方法:合作过程中形成的评估方法和标准有望成为行业规范,推动AI安全评估的标准化。

  3. 技术共享与知识转移:通过合作,安全技术可以在企业和政府之间更有效地共享,加速整个行业的安全水平提升。

  4. 国际协调与合作:不同国家之间的AI安全机构可以加强协调,共同应对跨国AI安全挑战。

Anthropic感谢美国CAISI和英国AISI技术团队的严格测试、深思熟虑的反馈和持续合作。他们的工作显著改善了系统的安全性,并推动了衡量AI安全防护有效性的领域发展。这种公私合作模式不仅为Anthropic带来了安全性的提升,也为整个AI行业提供了宝贵的经验和启示,标志着AI安全进入了一个新的合作时代。