AI安全防护新纪元:美英政府机构联手,共筑智能系统防御体系

2

AI安全防护的全球协作新范式:政企联手共筑智能防线

随着人工智能技术的飞速发展,其在推动社会进步和经济增长方面展现出前所未有的潜力。然而,伴随巨大机遇而来的,是对AI系统潜在风险的深切关注,例如滥用、偏见和难以预料的安全漏洞。这些风险不仅可能影响个人隐私和企业运营,更可能对国家安全和社会稳定构成威胁。因此,作为人工智能领域的先行者,我们深知主动应对这些挑战,构建坚不可摧的AI安全防护体系,是实现AI技术负责任发展的关键。正是在这一背景下,我们与美国人工智能标准与创新中心(CAISI)以及英国人工智能安全研究院(AISI)建立了深度合作关系,共同探索提升AI系统安全与韧性的新路径。

过去一年中,我们与这两个由政府主导、旨在衡量和改进AI系统安全性的机构展开了富有成效的协作。最初的咨询已演变为持续的伙伴关系,CAISI和AISI的专业团队获得了我们在模型开发不同阶段的系统访问权限,从而能够对我们的系统进行持续、深入的测试。这种开放且透明的合作模式,使得政府机构能够将其在国家安全领域的独特专长,如网络安全、情报分析和威胁建模,与我们的机器学习专业知识相结合,从而更有效地评估特定的攻击向量和防御机制。他们的宝贵反馈,是推动我们持续改进安全措施、确保AI系统能够抵御最复杂恶意企图的核心动力。

与独立的外部专家合作,共同识别AI系统中的潜在漏洞,是我们构建“安全防护”(Safeguards)方法论的核心组成部分,也是预防模型被滥用、避免现实世界危害发生的关键举措。

揭示与应对:核心漏洞的深度挖掘与防护体系重构

此次与CAISI和AISI的紧密协作,已经带来了关键发现,极大帮助我们强化了阻止恶意使用模型的工具。根据与CAISI和AISI各自达成的协议,这两个组织对我们用于发现和阻止“越狱”(jailbreaks)行为的防御系统——“宪法分类器”(Constitutional Classifiers)——的多个迭代版本进行了评估。例如,在Claude Opus 4和4.1等模型部署之前,他们就参与了测试,旨在识别漏洞并构建更强大的安全防护。

宪法分类器强化测试

我们向CAISI和AISI提供了我们宪法分类器的多个早期版本访问权限,并随着改进持续提供最新系统的访问。通过共同努力,我们对这些分类器进行了严格的压力测试。政府红队成员在部署前和部署后都识别出了一系列漏洞,我们的技术团队则利用这些发现来增强安全防护能力。这些漏洞包括:

  • 提示注入(Prompt Injection)漏洞的揭示:政府红队专家通过提示注入攻击,发现了我们早期分类器中的弱点。这类攻击利用隐藏指令来诱骗模型执行系统设计者不期望的行为。测试人员发现,特定的注解,例如虚假声明已进行人工审查,竟然可以完全绕过分类器的检测。我们已针对这些漏洞进行了紧急修补,堵塞了潜在的安全隐患。
  • 安全架构压力测试与通用越狱:红队开发了一种高度复杂的“通用越狱”技术,它能以一种规避我们标准检测方法的编码方式来传递有害交互。这一发现不仅仅促使我们修补了某个具体的漏洞,更重要的是,它促使我们从根本上重构了安全防护架构,以解决潜在的、更深层次的漏洞类别,从而实现了防御能力的质的飞跃。
  • 识别基于密码的攻击:攻击者利用密码、字符替换和其他混淆技术对有害请求进行编码,以规避我们的分类器。这些发现推动了我们检测系统的改进,使其能够识别并阻止无论采用何种编码方法进行伪装的有害内容,大大提升了防御的鲁棒性。
  • 输入输出混淆攻击的发现:红队还发现了利用复杂混淆方法(专为我们特定防御定制)实现的通用越狱,例如将有害字符串分解成看似无害的片段,并将其置于更广泛的上下文中。识别这些“盲点”使得我们能够针对性地改进过滤机制,从而更有效地识别并抵御这类高级攻击。
  • 自动化攻击优化:政府团队构建了新的自动化系统,能够逐步优化攻击策略。他们最近利用这个系统,通过从一个效率较低的越狱攻击进行迭代,生成了一个有效的通用越狱,而我们则将此用于持续改进我们的安全防护措施。这种以攻促防的机制,使得我们的防御体系能够不断演进,适应新的攻击手段。

评估与风险方法论的完善

除了识别具体漏洞,CAISI和AISI团队还帮助我们强化了更广泛的安全策略。他们对证据要求、部署监控和快速响应能力等方面的外部视角,对于我们验证假设、识别需要额外证据来支持威胁模型的领域,具有不可估量的价值。这使得我们的安全评估不仅限于技术层面,更能从宏观层面把握风险,构建更全面的安全策略。

有效协作的关键经验与启示

我们的经验为如何有效与政府研究和标准机构互动以提高模型安全和稳健性,提供了几点重要启示:

全面模型访问提升红队测试效能

实践证明,向政府红队提供对我们系统更深层次的访问权限,能够促成更复杂的漏洞发现。我们提供了几个关键资源:

  • 部署前的安全防护原型:测试人员能够在防护系统上线之前对其进行评估和迭代,从而在安全措施部署前就识别出潜在弱点,进行前置修复。
  • 多种系统配置:我们提供了跨防护谱系的多种模型,从完全不受保护的版本到具有完整安全防护的模型。这种方法允许测试人员首先针对基础模型开发攻击,然后逐步完善技术以绕过日益复杂的防御。仅提供辅助功能的模型变体也能够进行精确的有害输出评分和能力基准测试。
  • 详尽的文档和内部资源:我们向受信任的政府红队提供了我们的安全防护架构细节、已发现的漏洞、安全防护报告以及细粒度的内容策略信息(包括具体的禁止请求和评估标准)。这种高度透明性帮助团队将测试重点放在高价值领域,而不是盲目地寻找弱点,极大地提升了测试效率和深度。
  • 实时安全防护数据加速漏洞发现:我们向政府红队提供了分类器分数的直接访问权限。这使得测试人员能够实时调整攻击策略,并进行更有针对性的探索性研究,从而以前所未有的速度发现新漏洞。

迭代测试促进复杂漏洞发现

尽管单次评估能提供一定价值,但持续的协作能够让外部团队建立深厚的系统专业知识,并发现更复杂的漏洞。在关键阶段,我们与合作伙伴保持了日常沟通渠道和频繁的技术深度交流。这种持续、深入的互动,使得双方团队能够共同演进,针对系统特性开发出更精细的攻击手段,从而揭示出单一评估难以触及的深层漏洞。

互补方法构建更强大安全体系

CAISI和AISI的评估与我们更广泛的安全生态系统相辅相成。公共漏洞赏金计划能够从广泛的人才库中产生大量、多样化的漏洞报告,而专业的专家团队则能帮助发现需要深厚技术知识才能识别的复杂、细微的攻击向量。这种多层次、多维度的安全策略,有助于确保我们能够同时捕获常见的漏洞利用和高度复杂的边缘案例,从而构建一个全方位、无死角的安全防护体系。

展望未来:持续协作与行业责任

构建安全且有益的强大AI模型,不仅需要技术创新,还需要行业与政府之间建立新型的合作模式。我们的经验表明,公私伙伴关系在技术团队紧密合作以识别和解决风险时,其效能才能最大化。

随着AI能力不断提升,独立评估缓解措施的作用日益凸显。我们感到鼓舞的是,其他AI开发者也正与这些政府机构展开合作,并鼓励更多公司积极参与其中,更广泛地分享其经验教训。通过集体的智慧和共同的努力,我们才能共同推动AI安全领域的进步,为全球AI技术的负责任发展贡献力量。

我们衷心感谢美国CAISI和英国AISI的技术团队,感谢他们的严谨测试、深思熟虑的反馈以及持续的协作。他们的工作不仅实质性地提升了我们系统的安全性,也推动了衡量AI安全防护效果这一领域的发展。