在人工智能技术飞速发展的当下,确保其安全、可靠地服务于人类社会已成为全球性的核心议题。强大的AI能力伴随着潜在的风险,这使得行业内部的防护措施必须与外部的专业监督相结合。在过去一年中,我们与美国AI标准与创新中心(CAISI)以及英国AI安全研究院(AISI)建立了深入而富有成效的合作关系,这两个政府机构的成立旨在衡量和提升AI系统的安全性。这项自愿性的合作从最初的咨询逐步发展成为一个持续的伙伴关系,CAISI和AISI的团队在模型开发的不同阶段获得了我们系统的访问权限,从而能够对我们的系统进行持续的测试。
政府机构在这项工作中展现出其独特的优势和能力,尤其是在网络安全、情报分析和威胁建模等国家安全领域拥有深厚的专业知识。当这些专业知识与机器学习技术相结合时,政府团队能够有效评估特定的攻击向量和防御机制。他们的反馈对我们改进安全措施至关重要,确保我们的系统能够抵御最复杂的恶意尝试。与独立的外部专家合作,识别AI系统中的脆弱性,是我们构建“安全防护(Safeguards)”策略的核心组成部分,对于防止模型被滥用、避免现实世界的潜在危害至关重要。
漏洞的揭示与应对:强化AI系统防御
这项合作已经产生了关键性的成果,显著帮助我们加强了预防模型被恶意使用的工具。根据我们与CAISI和AISI的协议,双方机构对我们“宪法分类器(Constitutional Classifiers)”的多个迭代版本进行了评估。这是一个我们用于识别和阻止“越狱”行为的防御系统,并在诸如Claude Opus 4和4.1等模型部署之前进行了测试,以帮助识别漏洞并构建强大的安全防护。
宪法分类器测试的关键发现
我们向CAISI和AISI提供了我们早期宪法分类器版本的访问权限,并在改进过程中持续提供最新系统的访问。双方共同对这些分类器进行了压力测试,政府红队专家在部署前后识别出了一系列漏洞。我们的技术团队利用这些发现来强化安全防护,这些漏洞包括:
揭示提示注入漏洞:政府红队专家通过提示注入攻击发现了我们早期分类器中的弱点。这类攻击利用隐藏指令来诱导模型做出系统设计者不期望的行为。测试人员发现,特定的注解,例如虚假声明已进行人工审查,可以完全绕道分类器的检测。这些漏洞已被我们及时修补。这表明,AI模型的语义理解层仍存在被高级“社会工程学”手段利用的可能,要求防御系统不仅要识别显性指令,还要洞察其潜在意图。
压力测试安全防护架构:他们开发了一种复杂的通用越狱技术,通过将有害交互编码成能够规避我们标准检测方法的形式。这项发现促使我们不仅仅是修补这一个别漏洞,而是从根本上重构了安全防护架构,以解决潜在的、更深层次的漏洞类别。这强调了从单点防御转向系统性、架构级防御的必要性,尤其是在面对不断演进的攻击手段时。
识别基于密码的攻击:攻击者使用密码、字符替换和其他混淆技术对有害请求进行编码,以规避我们的分类器。这些发现推动了我们检测系统的改进,使其能够识别并阻止伪装的有害内容,无论其采用何种编码方法。这要求AI安全系统具备更强大的模式识别和反混淆能力,超越简单的关键词匹配。
输入和输出混淆攻击:通过碎片化有害字符串为看似无害的组件,并将其嵌入更广泛的上下文中,他们发现了针对我们特定防御措施的通用越狱技术。识别这些盲点使我们能够对过滤机制进行有针对性的改进。这揭示了AI系统在处理复杂上下文时可能存在的漏洞,以及攻击者如何利用这种上下文感知能力不足来实施攻击。
自动化攻击策略优化:他们构建了新的自动化系统,能够逐步优化攻击策略。最近,他们利用该系统通过迭代从一个效果较差的越狱技术生成了一个有效的通用越狱,我们正利用这一成果来进一步改进我们的安全防护。这表明AI安全攻防正进入自动化与智能化的新阶段,要求防御系统也需具备快速学习和适应能力。
除了识别具体漏洞,CAISI和AISI的团队还帮助我们强化了更广泛的安全方法。他们对证据要求、部署监控和快速响应能力的外部视角,对我们压力测试假设、识别需要额外证据支持威胁模型的领域具有不可估量的价值。
有效合作的关键经验:构建弹性AI生态
我们的经验为如何有效与政府研究和标准机构合作以提高模型安全性,提供了几项重要启示:
全面模型访问提升红队测试效率
经验表明,给予政府红队专家更深层次的系统访问权限,能够促使发现更复杂的漏洞。我们提供了几个关键资源:
- 预部署安全防护原型:测试人员能够在安全系统上线前进行评估和迭代,从而在部署前识别出弱点。这极大地缩短了漏洞发现到修复的周期。
- 多系统配置:我们提供了涵盖不同防护级别的模型,从完全无防护的版本到具备完整安全防护的模型。这种方法让测试人员能够首先针对基础模型开发攻击,然后逐步完善技术以绕过日益复杂的防御措施。同时,仅提供有益输出的模型变体也使得有害输出评分和能力基准测试更加精确。
- 详尽的文档和内部资源:我们向值得信赖的政府红队专家提供了我们的安全防护架构细节、已记录的漏洞、安全防护报告以及细致的内容政策信息(包括具体的禁止请求和评估标准)。这种透明度帮助团队能够针对高价值的测试区域,而非盲目地搜索弱点。
- 实时安全防护数据加速漏洞发现:我们给予政府红队专家直接访问分类器分数的权限。这使得测试人员能够即时调整攻击策略,并进行更有针对性的探索性研究,形成高效的攻防循环。
迭代测试有助于发现复杂漏洞
尽管一次性评估也能提供价值,但持续的合作使外部团队能够深入了解系统并发现更复杂的漏洞。在关键阶段,我们与合作伙伴保持每日沟通渠道和频繁的技术深入探讨,确保信息的实时共享和问题的及时解决。
互补方法提供更强大的安全性
CAISI和AISI的评估与我们更广泛的生态系统协同作用。公共漏洞赏金计划从广泛的人才库中生成大量多样化的漏洞报告,而专业的专家团队则可以帮助发现需要深厚技术知识才能识别的复杂、细微的攻击向量。这种多层次的策略有助于确保我们既能捕获常见漏洞,也能应对复杂的边缘情况,构建起一个全方位、无死角的防御体系。
展望未来:持续合作的必然性
打造强大、安全且有益的AI模型,不仅需要技术创新,还需要行业与政府之间建立新型的合作模式。我们的经验表明,公私伙伴关系在技术团队紧密合作以识别和解决风险时,才能发挥最大效用。
随着AI能力的不断提升,对缓解措施进行独立评估的作用也日益凸显。我们感到鼓舞的是,其他AI开发者也正在与这些政府机构合作,并鼓励更多的公司效仿并更广泛地分享他们的经验教训。这不仅仅是为了个别公司的利益,更是为了整个AI行业乃至全人类的共同福祉。我们深信,只有通过开放、透明和持续的合作,才能共同驾驭AI的未来,确保其沿着安全、负责任的轨道发展。我们由衷感谢美国CAISI和英国AISI技术团队的严谨测试、深思熟虑的反馈以及持续合作。他们的工作显著提升了我们系统的安全性,并推动了衡量AI安全防护有效性领域的发展。