在人工智能技术迅猛发展的今天,确保AI系统的安全性和可靠性已成为全球关注的焦点。2025年9月,Anthropic宣布与美国AI标准与创新中心(CAISI)和英国AI安全研究所(AISI)建立深度合作关系,共同提升AI系统的安全防护能力。这一合作不仅标志着政府机构与科技企业在AI安全领域的创新协作模式,也为整个行业树立了公私合作提升AI安全的新标杆。
政府机构在AI安全中的独特价值
政府机构在AI安全领域拥有不可替代的独特优势。过去一年,Anthropic与CAISI和AISI的合作从最初的咨询发展为持续的伙伴关系,这些政府机构获得了Anthropic系统在模型开发各阶段的访问权限,能够持续测试其AI系统。
政府机构特别在国家安全相关领域拥有深厚专业知识,包括网络安全、情报分析和威胁建模等。这些专业能力结合其机器学习专业知识,使其能够评估特定的攻击向量和防御机制。通过这种合作,Anthropic能够获得宝贵的反馈,不断完善其安全措施,使系统能够抵御最复杂的使用滥用尝试。
"与独立外部专家合作识别AI系统漏洞是Anthropic安全方法的核心部分,对于防止模型可能造成现实世界伤害的滥用至关重要。"这一理念推动了公私合作模式的形成,使不同背景的专家能够共同应对AI安全挑战。
漏洞发现与修复:合作成果丰硕
此次合作已经取得了重要发现,帮助Anthropic强化了防止模型恶意使用的工具。根据与CAISI和AISI的协议,每个组织在部署前评估了Anthropic宪法分类器的多个迭代版本——这是一种用于识别和防止越狱的防御系统,针对Claude Opus 4和4.1等模型,以帮助识别漏洞并构建强大的安全措施。
宪法分类器测试
Anthropic向CAISI和AISI提供了宪法分类器的几个早期版本版本,并随着改进持续提供最新系统的访问权限。双方共同对这些分类器进行了压力测试,政府红队成员在部署前后都发现了各种漏洞,而Anthropic技术团队则利用这些发现加强安全措施。
具体发现的漏洞包括:
提示注入漏洞的发现:政府红队成员通过提示注入攻击发现了早期分类器的弱点。这类攻击使用隐藏指令诱骗模型执行系统设计者未预期的行为。测试人员发现,特定注释(如虚假声称已进行人工审查)可以完全绕过分类器检测。Anthropic已修补这些漏洞。
安全架构的压力测试:开发了一种复杂的通用越狱方法,以规避标准检测方式编码有害交互。这一发现促使Anthropic从根本上重构其安全架构,以解决潜在的漏洞类别,而非仅仅修补单个漏洞。
基于密码的攻击识别:使用密码、字符替换和其他混淆技术对有害请求进行编码,以规避分类器。这些发现推动了检测系统的改进,使其能够识别和阻止无论采用何种编码方法的伪装有害内容。
输入和输出混淆攻击:发现了使用针对特定防御的复杂混淆方法的通用越狱,例如将有害字符串分解为更广泛上下文中的看似无害的组件。识别这些盲点使过滤机制能够进行有针对性的改进。
自动化攻击优化:构建了新的自动化系统,逐步优化攻击策略。最近,他们使用该系统通过从效果较差的越狱迭代产生了一个有效的通用越狱,Anthropic正利用这一发现改进其安全措施。
评估与风险方法论
除了识别特定漏洞外,CAISI和AISI团队还帮助加强了Anthropic更广泛的安全方法。他们在证据要求、部署监控和快速响应能力方面的外部视角对于压力测试假设和识别可能需要额外证据支持威胁模型的领域具有重要价值。
有效合作的关键经验
Anthropic的经验揭示了如何有效与政府研究和标准机构合作以提高模型安全性的重要经验。
全面模型访问增强红队测试效果
经验表明,给予政府红队成员更深入的系统访问权限,能够实现更复杂的漏洞发现。Anthropic提供了几个关键资源:
部署前安全原型:测试人员能够在安全措施上线前评估和迭代保护系统,在部署前识别弱点。
多种系统配置:Anthropic提供了从完全不受保护版本到具有完整安全措施的模型在内的整个保护范围的模型。这种方法使测试人员首先能够针对基础模型开发攻击,然后逐步完善技术以绕过日益复杂的防御。仅提供帮助的模型变体还实现了精确的有害输出评分和能力基准测试。
广泛的文档和内部资源:Anthropic向值得信赖的政府红队成员提供了其安全架构细节、记录的漏洞、安全报告和细粒度的内容政策信息(包括特定的禁止请求和评估标准)。这种透明度帮助团队针对高价值测试领域开展工作,而非盲目寻找弱点。
实时安全数据加速漏洞发现:Anthropic给予政府红队成员直接访问分类器分数的权限,使测试人员能够完善攻击策略并进行更有针对性的探索性研究。
迭代测试实现复杂漏洞发现
尽管单次评估有价值,但持续合作使外部系统能够发展深入的系统专业知识,发现更复杂的漏洞。在关键阶段,Anthropic与合作伙伴保持了日常沟通渠道和频繁的技术深入交流。
互补方法提供更强大的安全性
CAISI和AISI评估与更广泛的生态系统协同工作。公共漏洞赏金计划从广泛的人才库中生成大量多样化的漏洞报告,而专业专家团队则可以帮助发现需要深厚技术知识才能识别的复杂、微妙的攻击向量。这种多层次策略有助于确保我们既能捕获常见漏洞,又能处理复杂的边缘情况。
持续合作:AI安全治理的新模式
构建强大且有益的AI模型不仅需要技术创新,还需要行业与政府之间新的合作形式。Anthropic的经验表明,当技术团队密切合作以识别和应对风险时,公私合作伙伴关系最为有效。
随着AI能力的进步,对缓解措施独立评估的作用日益重要。Anthropic对其他AI开发者也在与这些政府机构合作感到鼓舞,并鼓励更多公司这样做并更广泛地分享他们的经验。
这种合作模式为整个AI行业提供了宝贵启示:AI安全不是单一企业能够独立解决的问题,需要政府、企业、研究机构和公众的广泛参与。通过开放、透明和持续的合作,我们可以共同构建更安全、更可靠的AI系统,确保这项技术能够造福人类社会。
未来,随着AI技术的不断发展,这种公私合作模式有望进一步扩展和深化,形成更加完善的AI安全治理体系。政府机构可以提供监管框架和资源支持,科技企业则贡献技术创新和实际应用经验,两者结合将推动AI安全标准的不断提升,为AI技术的健康发展奠定坚实基础。