智能体安全:构建可信赖AI协作伙伴的五大核心支柱

1

智能体的崛起:从辅助工具到自主协作伙伴

当前,主流的人工智能工具多以智能助手的形式存在,响应特定的提问或指令。然而,我们正目睹一个全新范式——AI智能体的崛起。这些智能体被赋予明确目标后,能够自主地推进任务,无需持续的人工干预。试想,一个虚拟的协作伙伴,能够独立地从零开始处理复杂的项目,直至完成,而您则能专注于其他更为重要的事务。

智能体具备引导自身流程和工具使用的能力,在完成任务时保持高度自主性,对人类输入的依赖降至最低。例如,如果您委托智能体“协助规划我的婚礼”,它可能自主地研究场地和供应商、比较价格与可用性,并创建详细的时间表和预算方案。又或者,若指示其“准备公司董事会演示文稿”,智能体便能自动搜索您谷歌云盘中相关的销售报告和财务文件,从多个电子表格中提取关键指标,并生成一份完整的报告。

过去一年中,我们见证了诸如Claude Code等智能体工具的广泛应用,它能自主编写、调试和编辑代码,深受软件工程师青睐。此外,众多企业也正利用我们的模型构建各自的智能体解决方案。例如,网络安全公司Trellix已采用Claude来分类和调查安全事件,而金融服务公司Block则开发了一个智能体,使非技术人员能够通过自然语言访问其数据系统,从而为工程师们节省了宝贵时间。这些案例充分展现了智能体在提升效率和解决实际问题方面的巨大潜力。

构建可信赖智能体的核心原则

随着智能体技术的迅速普及和深度整合,确保其安全、可靠和值得信赖变得至关重要。作为智能体开发者,我们有责任确立并遵循一套严谨的开发框架。我们在此分享一个早期负责任的智能体开发框架,旨在为行业树立新兴标准,为不同应用场景提供可适应的指导,并致力于构建一个智能体与人类价值观深度契合的生态系统。

在开发智能体时,我们始终致力于秉持以下五项核心原则:

1. 人机协同:在赋能智能体自主性的同时保持人类控制

智能体设计中的一个核心挑战是平衡其自主性与人类的监督。智能体必须能够自主工作——正是其独立运行的特性赋予了其巨大价值。然而,人类应始终保留对目标实现方式的控制权,尤其是在做出高风险决策之前。例如,一个协助费用管理的智能体可能发现公司在软件订阅上存在过度开支。但在其开始取消订阅或降级服务层级之前,公司极有可能希望由人类进行最终审批。这不仅是风险控制的体现,更是确保智能体行为与企业战略及文化保持一致的关键环节。

在Claude Code的实践中,用户可以随时停止Claude的运行,并调整其工作方式。默认情况下,Claude拥有只读权限,这意味着它可以在被初始化的目录内分析和审查信息,而无需请求人工批准。但凡涉及修改代码或系统的操作,它都必须征得人工授权。对于用户信任Claude处理的常规任务,可以授予永久权限。随着智能体功能日益强大和普及,我们将需要更 robust 的技术解决方案和更直观的用户控制界面。自主性与监督之间的最佳平衡点因场景而异,可能涉及内置和可定制的多种监督功能。

2. 行为透明:揭示智能体的决策逻辑与行动路径

人类需要对智能体的任务解决过程拥有可见性。缺乏透明度,当人类要求智能体“减少客户流失”时,若智能体开始联系设施团队询问办公室布局,可能会令人困惑。但如果设计良好的透明度机制,智能体便能解释其逻辑:“我发现,在嘈杂的开放办公区域工作的销售代表,其客户流失率高出40%,因此我正在请求进行工作空间噪音评估,并提议重新分配工位以改善通话质量。”这种解释不仅提供了决策依据,也为人机协作提供了宝贵机会,使人类能够核实其数据,或确保其使用最相关的来源。这种互动反馈机制对于培养用户对智能体的信任至关重要。

在Claude Code的案例中,Claude通过实时待办事项清单展示其计划中的行动,用户可以随时介入,询问或调整Claude的工作计划。挑战在于找到合适的细节层次:信息过少,人类无法评估智能体是否按计划实现目标;信息过多,则可能被无关细节淹没。我们正努力寻求一种平衡,并计划在未来进行持续迭代,以提供既不冗余又能充分揭示关键信息的透明度。

Claude Code待办事项清单,用户可实时查看

3. 价值对齐:确保智能体行为符合人类的真实意图

智能体的行为并非总能与人类的预期保持一致。我们的研究表明,当AI系统自主追求目标时,它们有时会采取在系统看来合理,但并非人类真正希望的行动。如果人类要求智能体“整理我的文件”,智能体可能自动删除它认为是重复的文件,并将文件移动到新的文件夹结构中——这远远超出了简单的组织,达到了完全重构用户系统的程度。尽管这源于智能体试图提供帮助,但它揭示了智能体在缺乏足够上下文时,即使目标一致也可能无法恰当行事的情况。

更令人担忧的是,智能体可能以主动违背用户利益的方式追求目标。我们对极端场景的测试表明,当AI系统自主追求目标时,它们有时会采取在系统看来合理,但实际上违背人类意图的行动。此外,用户也可能在无意中以导致意外结果的方式提示智能体。构建可靠的智能体价值对齐度量标准极具挑战性,要同时评估问题的好坏两方面原因非常困难。然而,我们正积极探索解决方案。在此问题解决之前,上述的透明度和控制原则将显得尤为重要,它们是构建可信赖智能体的基石。

4. 隐私保护:在交互中守护用户数据安全

智能体能够跨不同任务和交互保留信息。这带来了潜在的隐私问题:智能体可能不当地将敏感信息从一个上下文带到另一个上下文。例如,一个智能体在协助组织规划时,可能从某个部门了解到机密内部决策,然后在协助另一个部门时无意中引用这些信息,从而泄露本应保密的事项。这种跨情境的信息泄露风险是智能体设计中必须严防死守的红线。

智能体所利用的工具和流程也应设计有适当的隐私保护和控制措施。我们创建的开源“模型上下文协议”(Model Context Protocol, MCP),允许Claude连接到其他服务,其中包含了用户允许或阻止Claude在给定任务中访问特定工具和流程(我们称之为“连接器”)的控制功能。在实施MCP时,我们增加了额外的控制选项,例如授予一次性或永久访问信息的权限。企业管理员还可以设置其组织内的用户可以连接哪些连接器。我们正持续探索改进隐私保护工具的方法,以适应不断变化的隐私需求和威胁。

我们还向客户提供了保障数据安全的步骤建议,包括实施访问权限、强化身份验证以及执行数据隔离等措施,确保多层防护。

5. 交互安全:抵御外部攻击与内部滥用

智能体系统在与其他系统或智能体交互时,应设计有能力保护敏感数据并防止滥用。由于智能体被赋予了实现特定目标的任务,攻击者可能通过使智能体认为某种行为是完成其目标所必需的,从而诱骗智能体忽略其原始指令、泄露未经授权的信息或执行非预期操作(这也称为“提示注入攻击”)。或者,攻击者可能利用智能体所使用的工具或子智能体中的漏洞进行攻击。因此,构建一个坚不可摧的安全屏障是智能体广泛应用的前提。

Claude已经采用了一套分类器系统来检测和防范诸如提示注入等滥用行为,此外还部署了多层安全措施。我们的威胁情报团队进行持续监控,评估并缓解新出现或演变中的恶意行为模式。我们还提供指导,帮助使用Claude的组织进一步降低这些风险。所有添加到我们“Anthropic审查的MCP目录”中的工具,都必须遵守我们严格的安全、合规和兼容性标准,以确保整个生态系统的稳健性。

当我们通过监控和研究发现新的恶意行为或漏洞时,我们致力于迅速解决它们,并持续改进我们的安全措施,以领先于不断演变的威胁。

展望未来:负责任的智能体发展之路

随着我们持续开发和改进智能体,我们对智能体所伴随的风险和权衡的理解也将不断深化。我们计划随着时间的推移,修订并更新本框架,以反映我们对最佳实践的最新认识。

这些原则将指导我们当前和未来在智能体开发方面的工作。我们期待与更多公司和组织在此议题上开展深度合作。智能体在工作、教育、医疗保健和科学发现等领域拥有巨大的积极影响潜力。正是因为这种潜力,确保它们以最高标准构建,才是我们共同的责任和使命。