AI安全新范式:Anthropic与美英政府机构的深度合作创新

1

在人工智能技术快速发展的今天,确保AI系统的安全性和可靠性已成为行业面临的核心挑战。作为这一领域的先行者,Anthropic公司通过与政府机构的创新合作,开创了AI安全评估的新模式。本文将深入探讨这种公私合作如何帮助发现关键安全漏洞,重新定义AI安全标准,并为整个行业提供宝贵经验。

跨国政府合作:AI安全的新伙伴关系

在过去一年中,Anthropic与美国AI标准与创新中心(CAISI)和英国AI安全研究所(AISI)建立了紧密的合作关系。这两个政府机构专门负责评估和提升AI系统的安全性。我们的合作从最初的咨询逐步发展为持续性的伙伴关系,CAISI和AISI团队获得了在我们模型开发各阶段访问系统的权限,从而能够持续测试我们的AI系统。

政府在AI安全领域拥有独特优势,特别是在网络安全、情报分析和威胁建模等国家安全领域拥有深厚专业知识。结合他们的机器学习专长,这些专家能够评估特定的攻击向量和防御机制。他们的反馈帮助我们改进安全措施,使系统能够抵御最复杂的滥用尝试。

AI安全合作

与独立外部专家合作识别AI系统漏洞是Anthropic安全方法的核心部分,对于防止模型可能造成的现实世界危害至关重要。这种合作模式不仅丰富了我们的安全视角,还引入了政府机构在国家安全领域的专业见解,为AI安全评估注入了新的维度。

漏洞发现与解决:实战中的安全强化

这种合作已经取得了重要成果,帮助我们强化了防止模型恶意使用的工具。根据与CAISI和AISI的协议,每个组织在我们部署前评估了我们的宪法分类器(Constitutional Classifiers)的多个版本,这是一种用于识别和防止越狱攻击的防御系统,应用于Claude Opus 4和4.1等模型。

宪法分类器的测试

我们向CAISI和AISI提供了宪法分类器的几个早期版本,并随着改进继续提供对我们最新系统的访问。我们一起对这些分类器进行了压力测试,政府红队成员识别出了一系列漏洞——包括部署前和部署后的漏洞——我们的技术团队利用这些发现加强安全防护。例如,这些漏洞包括:

提示注入漏洞的发现

政府红队成员通过提示注入攻击发现了我们早期分类器的弱点。这类攻击使用隐藏指令来诱骗模型执行系统设计者未预期的行为。测试人员发现,特定的注释,如虚假声称已进行人工审核,可以完全绕过分类器检测。我们已经修补了这些漏洞。

安全架构的压力测试

他们开发了一种复杂的通用越狱方法,以规避标准检测方式编码有害交互。这一发现促使我们从根本上重构安全架构,以解决底层漏洞类别,而不仅仅是修补单个漏洞。

基于密码学的攻击识别

使用密码学、字符替换和其他混淆技术对有害请求进行编码,以逃避我们的分类器。这些发现推动了我们检测系统的改进,使其能够识别和阻止有害内容,无论使用何种编码方法。

输入和输出混淆攻击

发现针对我们特定防御的复杂混淆方法的通用越狱,例如将有害字符串分解为更广泛上下文中的看似无害的组件。识别这些盲点使我们能够针对改进过滤机制。

自动化攻击优化

构建了新的自动化系统,逐步优化攻击策略。他们最近使用该系统通过从效果较差的越狱迭代产生了一个有效的通用越狱,我们正利用这些改进来增强我们的安全防护。

评估与风险方法论

除了识别特定漏洞外,CAISI和AISI团队还帮助我们加强了对安全性的更广泛方法。他们对证据要求、部署监控和快速响应能力的外部视角在压力测试我们的假设和识别可能需要额外证据来支持威胁模型的领域方面具有宝贵价值。

有效合作的关键经验

我们的经验教会了我们几个重要教训,关于如何有效地与政府研究和标准机构合作,以提高模型的安全性和可靠性。

全面模型访问增强红队测试效果

我们的经验表明,给予政府红队成员更深入的系统访问权限,能够发现更复杂的漏洞。我们提供了几个关键资源:

  • 部署前安全防护原型:测试人员可以在防护系统上线前进行评估和迭代,在部署安全防护之前识别弱点。
  • 多种系统配置:我们提供了从完全未受保护的版本到具有完整安全防护的模型,让测试人员首先开发针对基础模型的攻击,然后逐步改进技术以绕过越来越复杂的防御。仅提供帮助的模型变体还实现了精确的有害输出评分和能力基准测试。
  • 广泛的文档和内部资源:我们向值得信赖的政府红队成员提供了我们的安全架构细节、记录的漏洞、安全报告和细粒度的内容政策信息(包括特定的禁止请求和评估标准)。这种透明度帮助团队针对高价值测试区域进行测试,而不是盲目地寻找弱点。
  • 实时安全防护数据加速漏洞发现:我们给予政府红队成员直接访问分类器分数的权限,使他们能够优化攻击策略并进行更有针对性的探索性研究。

迭代测试允许复杂漏洞发现

尽管单次评估有价值,但持续合作使外部系统能够开发深入的系统专业知识,并发现更复杂的漏洞。在关键阶段,我们与合作伙伴保持了日常沟通渠道和频繁的技术深入交流。

互补性方法提供更强大的安全性

CAISI和AISI评估与我们更广泛的生态系统协同工作。公共漏洞赏金计划从广泛的人才库中产生大量多样化的漏洞报告,而专业专家团队可以帮助发现需要深厚技术知识才能识别的复杂、微妙的攻击向量。这种多层策略帮助我们确保同时捕获常见漏洞和复杂的边缘情况。

持续合作:构建更安全的AI未来

使强大的AI模型安全且有益不仅需要技术创新,还需要行业和政府之间新的合作形式。我们的经验表明,当技术团队紧密合作以识别和解决风险时,公私伙伴关系最为有效。

随着AI能力的进步,对缓解措施独立评估的作用变得越来越重要。我们很高兴看到其他AI开发者也在与这些政府机构合作,并鼓励更多公司这样做,并更广泛地分享他们的经验。

行业启示:AI安全合作的未来方向

Anthropic与政府机构的合作为整个AI行业提供了重要启示。首先,这种合作模式证明了政府机构在AI安全评估中的独特价值,特别是在国家安全相关领域的专业知识可以为AI安全带来新的视角。

其次,这种合作展示了持续迭代测试的重要性。与一次性评估相比,长期合作使外部团队能够开发深入的系统专业知识,发现更复杂的漏洞。这种持续性的测试方法对于应对不断演变的AI安全威胁至关重要。

第三,互补性安全策略的价值得到了充分体现。公共漏洞赏金计划可以产生大量多样化的漏洞报告,而专业专家团队则可以帮助发现需要深厚技术知识的复杂攻击向量。这种多层次的防御策略确保了AI系统的全面安全性。

最后,这种合作模式强调了透明度和开放性的重要性。通过向合作伙伴提供广泛的文档、内部资源和实时数据,可以更有效地识别和解决安全漏洞。这种透明度不仅有助于当前的测试工作,还可以为整个行业建立最佳实践。

随着AI技术的不断发展,与政府机构的合作将成为确保AI系统安全的关键因素。通过这种合作,我们可以共同应对AI安全挑战,构建更加安全、可靠的AI生态系统,为人类社会带来更大的福祉。