AI安全合作新范式:Anthropic与美英政府机构的深度协作

2

AI安全合作

在人工智能技术迅猛发展的今天,确保AI系统的安全性和可靠性已成为全球关注的焦点。2025年,Anthropic公司与美国AI标准与创新中心(CAISI)和英国AI安全研究所(AISI)建立了创新性的合作关系,共同提升AI系统的安全防护能力。这种公私合作模式不仅为AI安全领域带来了新的思路,也为整个行业树立了合作标准的新标杆。

合作背景与意义

过去一年中,Anthropic与两家政府机构建立了从初始咨询到持续合作伙伴关系的演进式合作。这些政府机构专门负责评估和改进AI系统的安全性,拥有在网络安全、情报分析和威胁建模等国家安全领域的深厚专业知识。通过与这些机构的合作,Anthropic得以将其机器学习专业知识与政府机构的独特能力相结合,共同评估特定攻击向量和防御机制。

这种合作的核心价值在于,政府机构能够从独立、客观的角度评估AI系统的安全性,帮助Anthropic发现那些可能被内部团队忽视的漏洞和风险。正如Anthropic在其安全框架中强调的,与独立外部专家合作识别AI系统中的漏洞是其安全方法的核心部分,对于防止模型被滥用并造成现实世界危害至关重要。

深度合作模式

与传统的安全评估不同,Anthropic与CAISI和AISI的合作采用了更为深入和系统化的模式。这种合作不仅仅是简单的安全测试,而是多维度、多阶段的深度协作。

系统访问与测试

Anthropic为CAISI和AISI团队提供了在其模型开发各个阶段的系统访问权限,使这些机构能够进行持续的系统测试。这种开放的态度在AI行业实属罕见,大多数公司通常只对有限的外部合作伙伴开放其系统。

特别值得一提的是,Anthropic允许政府机构对其宪法分类器(Constitutional Classifiers)——一种用于识别和防止越狱攻击的防御系统——进行多轮评估。这些评估在Claude Opus 4和4.1等模型部署前进行,帮助识别潜在漏洞并构建强大的安全防护措施。

信息共享与透明度

为了提高测试效果,Anthropic向政府团队提供了广泛的内部资源,包括:

  • 部署前的安全防护原型
  • 多种系统配置,从完全无保护的版本到具有完整安全防护的模型
  • 详细的架构文档、已知漏洞记录和安全防护报告
  • 细粒度的内容政策信息,包括特定的禁止请求和评估标准
  • 分类器分数的实时访问权限

这种高度透明的信息共享使测试团队能够针对性地测试高价值领域,而不是盲目地寻找弱点,大大提高了测试效率和效果。

关键发现与安全改进

通过与CAISI和AISI的紧密合作,Anthropic发现并修复了多种关键安全漏洞,这些发现直接促成了其安全工具的显著改进。

提示注入漏洞的发现

政府红队测试人员通过提示注入攻击发现了Anthropic早期分类器中的弱点。这类攻击利用隐藏指令诱使模型执行系统设计者未预期的行为。测试人员发现,特定的注释(如虚假声称已进行人工审核)可以完全绕过分类器检测。Anthropic团队已经修补了这些漏洞。

安全架构的压力测试

测试人员开发了一种复杂的通用越狱方法,将有害交互编码为能够规避标准检测方法的方式。这一发现促使Anthropic从根本上重构了其安全架构,以解决潜在的漏洞类别,而不仅仅是修补单个漏洞。

基于密码的攻击识别

测试人员使用密码、字符替换和其他混淆技术对有害请求进行编码,以规避分类器。这些发现推动了检测系统的改进,使其能够识别和阻止经过编码的有害内容,无论使用何种编码方法。

输入和输出混淆攻击

测试人员发现了使用针对特定防御的复杂混淆方法的通用越狱,例如将有害字符串分解为更广泛上下文中的看似无害的组件。识别这些盲点使Anthropic能够有针对性地改进其过滤机制。

自动化攻击优化

测试人员构建了新的自动化系统,能够逐步优化攻击策略。他们最近使用该系统通过从效果较差的越狱方法迭代,产生了一种有效的通用越狱方法,Anthropic正在利用这些发现改进其安全防护措施。

评估与风险管理方法的改进

除了发现特定漏洞外,CAISI和AISI团队还帮助Anthropic强化了其更广泛的安全方法。这些机构对证据要求、部署监控和快速响应能力的外部视角,对于检验Anthropic的假设并确定可能需要额外证据支持其威胁模型的领域具有重要价值。

这种合作促使Anthropic重新思考其安全评估框架,采用更加系统化、多维度的方法来评估AI系统的安全风险,包括技术漏洞、潜在滥用场景和长期影响等方面。

有效合作的关键经验

通过这次合作,Anthropic总结出了几条关于如何有效与政府研究和标准机构合作以提高模型安全性的重要经验。

全面模型访问增强红队测试效果

经验表明,为政府红队测试人员提供更深入的系统访问权限,能够发现更复杂的漏洞。Anthropic提供了多种关键资源:

  • 部署前的安全防护原型:测试人员能够在防护系统上线前评估和迭代,在部署前识别弱点。
  • 多种系统配置:提供从完全无保护到具有完整安全防护的多种模型,使测试人员能够首先针对基础模型开发攻击,然后逐步改进技术以绕过日益复杂的防御。
  • 广泛的文档和内部资源:向可信的政府红队测试人员提供安全架构细节、已知漏洞记录和安全防护报告,帮助他们有针对性地测试高价值领域。
  • 实时安全防护数据加速漏洞发现:直接向政府红队测试人员提供分类器分数,使他们能够改进攻击策略并进行更有针对性的探索性研究。

迭代测试实现复杂漏洞发现

虽然单次评估具有一定价值,但持续合作使外部团队能够发展深入的系统专业知识,发现更复杂的漏洞。在关键阶段,Anthropic与合作伙伴保持了每日沟通渠道和频繁的技术深入交流。

互补方法提供更强大的安全性

CAISI和AISI的评估与Anthropic更广泛的生态系统协同工作。公开的漏洞赏金计划能够从广泛的人才库中产生大量多样化的漏洞报告,而专业专家团队则可以帮助发现需要深厚技术知识才能识别的复杂、微妙的攻击向量。这种多层策略有助于确保我们既能捕获常见漏洞,又能发现复杂的边缘情况。

行业影响与未来展望

Anthropic与政府机构的合作模式为AI行业树立了新的标准。这种合作表明,开发强大而有益的AI模型不仅需要技术创新,还需要行业与政府之间新型合作形式的建立。

随着AI能力的不断提升,独立评估缓解措施的作用变得越来越重要。令人鼓舞的是,其他AI开发者也开始与这些政府机构合作,Anthropic鼓励更多公司加入这一行列,并更广泛地分享他们的经验教训。

这种公私合作模式不仅强化了Anthropic的系统安全性,也推动了衡量AI安全防护有效性的领域发展。通过开放合作、透明共享和持续改进,这种模式为AI行业的负责任发展提供了有力支持。

结论

Anthropic与CAISI和AISI的合作代表了AI安全领域的一个重要里程碑。通过深度合作、全面信息共享和系统化测试方法,这种公私合作模式不仅发现了多种关键安全漏洞,还促成了安全架构的根本性改进。

这种合作模式的关键成功因素在于:全面模型访问、迭代测试方法、互补性安全策略以及高度的信息透明度。这些经验为AI行业与政府机构合作提供了宝贵参考,也为确保AI系统的安全性和可靠性开辟了新途径。

随着AI技术的不断发展和应用场景的日益广泛,这种公私合作模式的重要性将进一步提升。通过持续创新和开放合作,我们有信心构建更加安全、可靠、有益的AI系统,为人类社会带来更大的价值。