AI安全新纪元:Anthropic与美英政府机构合作强化AI防护体系

1

人工智能技术的快速发展带来了前所未有的机遇,同时也伴随着严峻的安全挑战。随着AI系统变得越来越复杂,确保这些系统不被恶意使用或操纵已成为行业和政府共同关注的核心议题。在这背景下,Anthropic公司与美国AI标准与创新中心(CAISI)和英国AI安全研究所(AISI)的合作,为AI安全领域树立了新的标杆。

公私合作:AI安全的新范式

在过去的一年里,Anthropic与CAISI和AISI这两个政府机构建立了密切的合作关系。这些机构专门负责评估和提升AI系统的安全性。我们的合作始于初步咨询,逐渐发展为持续性的伙伴关系,CAISI和AISI团队获得了在我们模型开发各个阶段访问系统的权限,能够持续测试我们的系统。

政府机构在这一合作中带来了独特的能力,特别是在网络安全、情报分析和威胁建模等国家安全领域拥有深厚专业知识。这些专业知识结合他们的机器学习专长,使他们能够评估特定的攻击向量和防御机制。他们的反馈帮助我们改进安全措施,使系统能够抵御最复杂的滥用尝试。

与独立外部专家合作识别AI系统中的漏洞是Anthropic安全方法的核心部分,对于防止可能造成现实伤害的模型滥用至关重要。

漏洞发现与修复:实战经验分享

这种合作已经带来了关键发现,帮助我们强化了防止模型恶意使用的工具。根据与CAISI和AISI的协议,每个组织在我们部署前评估了多个版本的宪法分类器——这是我们用于识别和防止越狱的防御系统——在Claude Opus 4和4.1等模型上的表现,以帮助识别漏洞并构建强大的防护措施。

宪法分类器测试

我们向CAISI和AISI提供了多个早期版本的宪法分类器,并在我们改进系统时继续提供最新系统的访问权限。我们一起对这些分类器进行了压力测试,政府红队成员在部署前后都发现了一系列漏洞,我们的技术团队利用这些发现强化了安全措施。这些漏洞包括:

提示注入漏洞的发现:政府红队成员通过提示注入攻击发现了我们早期分类器的弱点。这类攻击使用隐藏指令来诱使模型执行系统设计者未预期的行为。测试人员发现,特定注释(如虚假声称已完成人工审查)可以完全绕过分类器检测。我们已经修复了这些漏洞。

安全架构的压力测试:他们开发了一种复杂的通用越狱方法,以规避标准检测方式编码有害交互。这一发现促使我们从根本上重构安全架构,以解决潜在的漏洞类别,而不仅仅是修补单个漏洞。

基于密码的攻击识别:使用密码、字符替换和其他混淆技术编码有害请求,以规避我们的分类器。这些发现推动了检测系统的改进,使其能够识别和阻止伪装的有害内容,无论使用何种编码方法。

输入和输出混淆攻击:发现使用针对我们特定防御的复杂混淆方法的通用越狱,例如将有害字符串分解为更广泛上下文中的看似无害的组件。识别这些盲点使我们能够有针对性地改进过滤机制。 自动攻击优化:构建了新的自动化系统,能够逐步优化攻击策略。他们最近使用这个系统通过从效果较差的越狱进行迭代,产生了一个有效的通用越狱,我们正利用它来改进我们的安全措施。

评估与风险方法论

除了识别特定漏洞外,CAISI和AISI团队还帮助我们强化了更广泛的安全方法。他们对证据要求、部署监控和快速响应能力的外部视角,在检验我们的假设和识别可能需要额外证据支持威胁模型的领域方面具有宝贵价值。

有效合作的关键经验

我们的经验教会了我们几个关于如何与政府研究及标准机构有效合作以提高模型安全性的重要经验。

全面模型访问增强红队测试效果

我们的经验表明,给予政府红队人员更深入的系统能力访问,可以实现更复杂的漏洞发现。我们提供了几个关键资源:

部署前安全原型:测试人员可以在保护系统上线前进行评估和迭代,在部署安全措施之前识别弱点。

多种系统配置:我们提供了从完全无保护版本到具有完整安全措施的模型范围内的模型。这种方法让测试人员首先开发针对基础模型的攻击,然后逐步改进技术以绕过越来越复杂的防御。仅帮助模型变体还实现了有害输出的精确评分和能力基准测试。

广泛的文档和内部资源:我们向值得信赖的政府红队人员提供了我们的安全架构细节、记录的漏洞、安全报告和细粒度内容政策信息(包括具体禁止的请求和评估标准)。这种透明性帮助团队针对高价值测试区域,而不是盲目地寻找弱点。

实时安全数据加速漏洞发现:我们向政府红队人员直接提供了分类器分数的访问权限。这使测试人员能够改进攻击策略并进行更有针对性的探索性研究。

迭代测试实现复杂漏洞发现

虽然单次评估有价值,但持续合作使外部团队能够发展深入的系统专业知识,发现更复杂的漏洞。在关键阶段,我们与合作伙伴保持日常沟通渠道和频繁的技术深入交流。

互补性方法提供更强大的安全

CAISI和AISI评估与我们更广泛的生态系统协同工作。公共漏洞赏金计划从广泛的人才库中产生大量多样化的漏洞报告,而专业专家团队可以帮助发现需要深厚技术知识才能识别的复杂、微妙的攻击向量。这种多层策略有助于我们同时发现常见漏洞和复杂的边缘情况。

持续合作的未来展望

使强大的AI模型安全且有益需要的不仅是技术创新,还需要行业和政府之间新的合作形式。我们的经验表明,当技术团队紧密合作以识别和应对风险时,公私伙伴关系最为有效。

随着AI能力的进步,对缓解措施的独立评估变得越来越重要。我们很高兴看到其他AI开发者也在与这些政府机构合作,并鼓励更多公司这样做,并更广泛地分享他们的经验。

这种合作模式不仅强化了Anthropic的AI安全能力,也为整个AI行业树立了标准。随着AI技术的不断发展,这种公私合作将成为确保AI系统安全、可靠和负责任的关键机制。通过共享经验、最佳实践和发现,我们可以共同构建一个更加安全的AI生态系统,使这项变革性技术能够造福全人类,同时最大限度地降低潜在风险。

结论

Anthropic与CAISI和AISI的合作展示了公私伙伴关系在AI安全领域的巨大潜力。通过全面的信息共享、深入的测试合作和持续的改进循环,我们不仅能够识别和修复现有漏洞,还能够构建更加稳健、前瞻性的安全架构。这种合作模式为整个AI行业提供了宝贵经验,证明通过开放、透明的合作,我们可以共同应对AI安全挑战,确保这项技术朝着有益于人类的方向发展。