AI安全新纪元:美英政府机构与企业协作的突破性实践

1

在人工智能技术飞速发展的今天,确保AI系统的安全性和可靠性已成为全球关注的焦点。2025年,Anthropic与美国AI标准与创新中心(CAISI)和英国AI安全研究所(AISI)的合作,为行业树立了公私协作提升AI安全的典范。这种创新合作模式不仅强化了AI防御系统,更为整个行业提供了宝贵的安全评估经验。

公私合作:AI安全的新范式

过去一年中,Anthropic与CAISI和AISI这两个政府机构建立了持续的合作关系。这些机构专门成立用于评估和提升AI系统安全性。我们的合作从最初的咨询开始,逐步发展为深度伙伴关系,CAISI和AISI团队获得了我们系统在模型开发各阶段的访问权限,实现了持续的系统测试。

政府在AI安全领域拥有独特优势,特别是在网络安全、情报分析和威胁建模等国家安全领域拥有深厚专业知识。结合他们的机器学习专长,这些专家能够评估特定的攻击向量和防御机制。他们的反馈帮助我们改进安全措施,使系统能够抵御最复杂的使用滥用尝试。

与独立外部专家合作识别AI系统漏洞是Anthropic安全方法的核心组成部分,对于防止模型被滥用造成现实世界危害至关重要。

漏洞发现与应对:合作成果

这种合作已经带来了关键发现,帮助我们强化了防止模型恶意使用的工具。根据与CAISI和AISI的协议,每个组织在我们部署前评估了宪法分类器的多个迭代版本——这是我们用于识别和防止越狱的防御系统,针对Claude Opus 4和4.1等模型,以帮助识别漏洞并构建强大的保障措施。

宪法分类器测试

我们向CAISI和AISI提供了宪法分类器的几个早期版本版本,并在我们进行改进时继续提供对我们最新系统的访问。我们一起对这些分类器进行了压力测试,政府红队成员在部署前后都发现了一系列漏洞,我们的技术团队利用这些发现加强安全措施。

AI安全测试

具体发现的漏洞包括:

  • 揭示提示注入漏洞:政府红队成员通过提示注入攻击发现了我们早期分类器的弱点。此类攻击使用隐藏指令来欺骗模型执行系统设计者未 intended 的行为。测试人员发现,某些特定注释(如虚假声称已进行人工审查)可以完全绕过分类器检测。我们已经修补了这些漏洞。

  • 压力测试安全架构:他们开发了一种复杂的通用越狱方法,以规避标准检测方式编码有害交互。这一发现促使我们从根本上重构安全架构,以解决潜在漏洞类别,而不仅仅是修补单个漏洞。

  • 识别基于密码的攻击:使用密码、字符替换和其他混淆技术对有害请求进行编码,以逃避我们的分类器。这些发现推动了我们检测系统的改进,使其能够识别和阻止无论使用何种编码方法的伪装有害内容。

  • 输入和输出混淆攻击:发现使用针对我们特定防御的复杂混淆方法的通用越狱,例如将有害字符串分解为更广泛背景中看似无害的组件。识别这些盲点使我们的过滤机制能够进行有针对性的改进。

  • 自动化攻击优化:构建了新的自动化系统,逐步优化攻击策略。他们最近使用该系统通过迭代效果较差的越狱方法产生了有效的通用越狱,我们正利用这一发现改进我们的安全措施。

评估与风险方法论

除了识别特定漏洞外,CAISI和AISI团队还帮助我们加强了对安全性的更广泛方法。他们对证据要求、部署监控和快速响应能力的外部视角,在压力测试我们的假设和识别可能需要额外证据支持威胁模型的领域方面具有宝贵价值。

有效合作的关键经验

我们的经验教会了我们几个关于如何有效与政府研究及标准机构合作以提高模型安全性和安全性的重要经验。

全面模型访问增强红队测试效果

我们的经验表明,向政府红队成员提供更深入的系统访问权限,能够发现更复杂的漏洞。我们提供了几个关键资源:

  • 部署前安全原型:测试人员可以在保护系统上线前评估和迭代,在安全措施部署前发现弱点。

  • 多种系统配置:我们提供了从完全无保护版本到具有全面安全措施的模型在内的各种模型。这种方法让测试人员首先开发针对基础模型的攻击,然后逐步改进技术以绕过越来越复杂的防御。仅提供帮助的模型变体还实现了精确的有害输出评分和能力基准测试。

  • 广泛的文档和内部资源:我们向值得信赖的政府红队成员提供了我们的安全架构细节、记录的漏洞、安全报告和细粒度内容政策信息(包括特定的禁止请求和评估标准)。这种透明度帮助团队针对高价值测试领域进行测试,而不是盲目地寻找弱点。

  • 实时安全数据加速漏洞发现:我们向政府红队成员直接提供了分类器分数的访问权限。这使得测试人员能够优化攻击策略并进行更有针对性的探索性研究。

迭代测试实现复杂漏洞发现

虽然单次评估有价值,但持续合作使外部系统能够开发深入的系统专业知识并发现更复杂的漏洞。在关键阶段,我们与合作伙伴保持了每日沟通渠道和频繁的技术深入交流。

互补方法提供更强大的安全性

CAISI和AISI评估与我们更广泛的生态系统协同工作。公开漏洞赏金计划从广泛的人才库中生成大量多样化的漏洞报告,而专业专家团队则可以帮助发现需要深厚技术知识才能识别的复杂、微妙的攻击向量。这种多层策略有助于我们确保既能捕获常见漏洞,又能识别复杂的边缘情况。

持续合作的意义

开发强大且有益的AI模型不仅需要技术创新,还需要行业与政府之间新的合作形式。我们的经验表明,当技术团队紧密合作以识别和解决风险时,公私伙伴关系最为有效。

随着AI能力的进步,独立评估缓解措施的作用日益重要。我们欣慰地看到其他AI开发者也在与这些政府机构合作,并鼓励更多公司参与进来并更广泛地分享他们的经验。

行业启示与未来展望

Anthropic与CAISI和AISI的合作模式为整个AI行业提供了重要启示。首先,这种合作证明了政府机构在AI安全评估中的独特价值,特别是在国家安全相关领域的专业知识。其次,全面透明的信息共享是有效合作的基础,企业需要向合作伙伴提供足够的系统访问权限和内部资源。

未来,随着AI技术的不断发展,这种公私合作模式将进一步扩展和深化。我们可以预见,更多的政府机构将参与AI安全评估,更多的企业将主动寻求与政府合作,共同构建更安全的AI生态系统。同时,随着评估方法的不断优化和技术的进步,AI系统的安全防护能力将得到显著提升。

结论

Anthropic与美国CAISI和英国AISI的合作代表了AI安全领域的重要进步。通过这种创新合作模式,我们不仅强化了自身系统的安全性,还为整个行业树立了新的标准。这种公私协作的成功实践表明,只有政府、企业和研究机构的紧密合作,才能确保AI技术的安全发展和负责任应用。

随着AI技术的不断演进,这种合作模式将继续发挥重要作用,推动AI安全标准的不断提升,为构建更安全、更可靠的AI系统奠定坚实基础。我们期待看到更多类似合作的出现,共同推动AI技术的健康发展。