AI安全基石:Claude如何构建多层防御体系,抵御潜在风险?

3

Claude模型赋能数百万用户应对复杂挑战、激发创新思维并深化对世界的理解。其目标在于放大人类潜力,同时确保模型能力导向积极结果。这意味着必须持续优化对用户学习与问题解决的支持,并有效预防可能造成现实危害的滥用行为。

在此背景下,专门的安全防护团队应运而生:他们负责识别潜在滥用、响应威胁并构建防御体系,旨在确保Claude模型既实用又安全。该团队汇聚了政策制定、执法、产品开发、数据科学、威胁情报和工程等多个领域的专家,他们深谙如何构建健壮的系统以及恶意行为者如何试图突破这些防线。

该团队的工作覆盖多个层面:包括制定政策、影响模型训练过程、测试有害输出、实时执行政策以及识别新型滥用和攻击模式。这种综合性方法贯穿模型的整个生命周期,确保Claude在训练和构建之初就融入了在现实世界中行之有效的保护措施。

null 图1:安全防护团队在模型生命周期中构建有效保护措施的方法论

政策制定与演进

安全防护团队负责设计模型的《使用政策》,该框架明确了Claude模型应如何被使用和不应被使用。该政策指导如何处理儿童安全、选举公正性、网络安全等关键领域的问题,并为Claude在医疗、金融等行业的应用提供细致入微的指导。

有两大机制指导着政策的制定和迭代过程:

统一危害框架

这是一个不断演进的框架,旨在帮助团队理解Claude使用可能造成的潜在危害,涵盖物理、心理、经济、社会和个人自主权五个维度。它并非一个形式化的评分系统,而是一个结构化的视角,在制定政策和执行程序时会综合考虑滥用的可能性与规模。

政策漏洞测试

团队与外部领域专家合作,识别潜在的关注点,并通过评估模型在挑战性提示下的输出,对这些关注点进行压力测试。合作伙伴包括恐怖主义、极端化、儿童安全和心理健康领域的专家。这些压力测试的结果直接影响政策、训练和检测系统的优化。例如,在2024年美国大选期间,团队与战略对话研究所(Institute for Strategic Dialogue)合作,以了解Claude何时可能提供过时信息。随后,我们增加了横幅提示,引导寻求选举信息的Claude.ai用户访问TurboVote等权威来源。

null 图2:2024年美国大选期间,因政策漏洞测试与战略对话研究所合作,Claude.ai上显示的用于获取准确投票信息的横幅

模型训练中的安全融合

安全防护团队与模型微调团队紧密合作,通过协作流程协助预防Claude产生有害行为和响应。这涉及对Claude应表现和不应表现的行为进行广泛讨论,从而为训练过程中构建哪些特性提供决策依据。

评估和检测流程也会识别潜在的有害输出。当发现问题时,团队会与微调团队协作寻找解决方案,例如在训练期间更新奖励模型或调整已部署模型的系统提示。

团队还与领域专家和专业人士合作,以深化Claude对敏感领域的理解。例如,通过与在线危机支持领域的领导者ThroughLine合作,深入了解模型在自残和心理健康相关情境下应如何响应。这些洞察被反馈给训练团队,以帮助提升Claude响应的细微之处,而非让Claude完全拒绝回应或错误解读用户在这些对话中的意图。

通过这种协作过程,Claude习得了几项重要技能:它学会了拒绝协助有害的非法活动,并能识别出生成恶意代码、创建欺诈性内容或策划有害活动的企图。它学会了如何谨慎地讨论敏感话题,以及如何区分这些话题与旨在造成实际伤害的企图。

严格的测试与评估

在发布新模型之前,我们会对其性能和能力进行全面评估。评估内容包括:

null 图3:在部署前,我们通过安全评估、风险评估和偏见评估来测试每个模型

安全评估

我们评估Claude在儿童剥削或自残等话题上对《使用政策》的遵守情况。我们测试了各种场景,包括明确的使用违规、模糊的上下文以及多轮对话。这些评估利用模型自身对Claude的响应进行评分,并辅以人工审查以确保准确性。

风险评估

对于网络危害或化学、生物、放射性、核武器及高当量炸药(CBRNE)等高风险领域,我们与政府机构和私营企业合作进行AI能力提升测试。我们定义了可能由能力提升带来的威胁模型,并评估安全防护措施对抗这些威胁模型的表现。

偏见评估

我们检查Claude是否能在不同上下文和用户之间持续提供可靠、准确的响应。对于政治偏见,我们测试具有对立观点的提示并比较其响应,对其事实性、全面性、等效性和一致性进行评分。我们还测试了就业和医疗保健等话题的响应,以识别包含性别、种族或宗教等身份属性是否会导致偏颇的输出。

这种严格的预部署测试有助于验证训练在压力下是否仍然有效,并指出是否需要构建额外的防护措施来监控和防范风险。在对计算机使用工具进行预发布评估期间,我们确定它可能加剧垃圾邮件的生成和分发。作为回应,我们在发布前开发了新的检测方法和执行机制,包括对显示滥用迹象的账户禁用该工具的选项,以及为用户提供针对提示注入的新保护。

评估结果会随每个新模型系列发布在对应的系统卡片中。

实时检测与强制执行

模型部署后,我们结合自动化系统和人工审查来检测危害并执行《使用政策》。

我们的检测和执行系统由一系列经过提示或特殊微调的Claude模型(称为“分类器”)驱动,这些分类器旨在实时检测特定类型的政策违规行为。我们可以同时部署多个不同的分类器,每个分类器监控特定类型的危害,同时主对话流畅进行。除了分类器,我们还针对儿童性虐待材料(CSAM)采用特定检测,将上传图像的哈希值与已知CSAM数据库进行比较。

这些分类器帮助我们确定何时以及是否采取强制措施,包括:

响应引导

我们可以实时调整Claude解释和响应某些用户提示的方式,以防止有害输出。例如,如果我们的分类器检测到用户可能试图生成垃圾邮件或恶意软件,我们可以自动向Claude的系统提示中添加额外指令以引导其响应。在少数情况下,我们甚至可以完全阻止Claude作出回应。

账户强制措施

我们调查违规模式,并可能在账户层面采取额外措施,包括警告,在严重情况下则会终止账户。我们还设有防御机制,以阻止欺诈性账户的创建和对服务的滥用。

构建这些执行系统在机器学习研究和工程实施方面都带来了巨大挑战。例如,分类器必须能够处理数万亿的输入和输出令牌,同时限制计算开销和对良性内容的误判。

持续监控与威胁情报

我们还会监控有害的Claude流量,超越单一提示和个人账户,以了解特定危害的普遍性并识别更复杂的攻击模式。这项工作包括:

Claude洞察与观察

我们的洞察工具通过将对话分组为高级主题集群,以保护隐私的方式衡量Claude的实际使用并分析流量。这项工作所启发的研究(例如关于Claude使用情感影响的研究)可以为我们构建的防护措施提供信息。

分层摘要

为了监控计算机使用能力或潜在的有害网络使用,我们采用分层摘要技术。该技术将单个交互浓缩为摘要,然后分析这些摘要以识别账户层面的问题。这有助于我们发现只有在聚合层面才显现的违规行为,例如自动化影响力操作和其他大规模滥用。

威胁情报

我们还研究模型最严重的滥用情况,识别现有检测系统可能遗漏的对抗性使用和模式。我们采用的方法包括将滥用指标(如账户活动异常激增)与典型账户使用模式进行比较,以识别可疑活动,并将外部威胁数据(如开源存储库或行业报告)与内部系统进行交叉参照。我们还监控恶意行为者可能活跃的渠道,包括社交媒体、消息平台和黑客论坛。我们将研究结果发布在公开的威胁情报报告中。

行业合作与未来展望

人工智能的安全防护工作至关重要,并非任何单一组织所能独立完成。行业内应积极寻求用户、研究人员、政策制定者以及公民社会组织的反馈与合作。通过持续的漏洞悬赏计划等机制,能够不断完善防御体系,集各方智慧共同推进AI安全。