AI智能代理:构建安全与可信赖框架的五大核心策略?

1

AI技术正以前所未有的速度发展,其中智能代理(AI agents)的兴起标志着一个新时代的到来。不同于传统问答式助手,智能代理被赋予明确目标后,能够自主规划并执行复杂任务,极大提升了工作效率。试想一下,一个虚拟协作伙伴能独立完成从市场调研到项目报告的整个流程,而您只需专注于核心决策。

例如,若您要求AI代理协助策划婚礼,它可能自主研究场地与供应商、比较价格与可用性,并构建详细的时间表与预算。在企业场景中,代理可搜寻您连接的Google Drive,整合销售报告与财务文件,从多份电子表格中提取关键指标,并自动生成一份董事会演示报告。Anthropic开发的Claude Code,一款能自主编写、调试和编辑代码的智能代理,已被软件工程师广泛应用。此外,Trellix利用Claude筛查与调查网络安全问题,而Block则构建了一个允许非技术人员通过自然语言访问数据系统的代理,显著节约了工程师的时间。

构建可信赖AI代理的核心原则

AI代理的快速部署使得开发安全、可靠且值得信赖的代理系统变得尤为关键。Anthropic发布了一套早期框架,旨在推动负责任的代理开发。我们期望该框架能为新兴标准奠定基础,为不同应用场景提供灵活指导,并最终促成一个代理行为与人类价值观深度契合的生态系统。

我们致力于遵循以下五项核心原则:

1. 平衡自主性与人类掌控

智能代理设计的核心在于如何平衡其自主操作与人类的有效监督。代理的独立运作是其价值所在,但人类必须保留对其目标实现方式的最终控制权,尤其是在面临重大决策之前。例如,一个帮助管理支出的代理可能会识别出公司在软件订阅上的过度开销。然而,在它取消订阅或降级服务之前,公司通常会要求人类批准。

在Claude Code中,用户可以随时停止代理,并调整其工作方向。默认情况下,Claude Code仅具有只读权限,这意味着它可以在不经人类批准的情况下分析和审查目录中的信息,但在修改代码或系统之前必须征求人类同意。对于常规且可信任的任务,用户可以授予持久性权限。

随着代理能力的增强和普及,我们需要更加 robust 的技术解决方案和直观的用户控制。自主性与监督之间的最佳平衡因场景而异,可能需要内置和可定制的监督功能相结合。

2. 提升代理行为透明度

人类需要清晰了解代理的决策过程与问题解决路径。缺乏透明度可能导致用户对代理行为感到困惑。例如,当用户要求代理“降低客户流失率”时,如果代理开始联系设施团队讨论办公室布局,用户可能会感到不解。然而,如果代理能够解释其逻辑:“我发现分配给开放办公区域销售代表的客户流失率高出40%,因此我正在请求进行工作空间噪音评估并提议调整工位以改善通话质量”,那么透明度设计就能发挥作用。这不仅提供了理解代理行为的机会,也允许用户核实数据或确保代理使用最相关的信息源来引导其决策。

Claude Code通过实时待办事项清单展示其计划中的操作,用户可以随时介入提问或调整Claude的工作计划。关键挑战在于找到恰当的细节层级:信息过少会使人类难以评估代理是否按计划实现目标;信息过多则可能让人不堪重负。我们正努力寻找一个中间地带,并需要持续迭代以优化。

3. 确保代理行动与人类价值观一致

代理并非总能按照人类的意图行事。我们的研究表明,当AI系统自主追求目标时,它们有时会采取在系统看来合理,但并非人类真正期望的行动。如果用户要求代理“整理我的文件”,代理可能自动删除它认为是重复的文件,并将文件移动到新的文件夹结构中,这远远超出了简单的组织,完全重构了用户系统。尽管这源于代理试图提供帮助,但它揭示了即使代理的目标与用户一致,也可能因缺乏上下文而未能采取恰当行动。

更令人担忧的是,代理追求目标的方式可能积极损害用户的利益。我们对极端场景的测试显示,AI系统在自主追求目标时,有时会采取在系统看来合理但违反人类真实意愿的行动。用户也可能无意中以导致意外结果的方式提示代理。建立衡量代理价值观对齐的可靠标准极具挑战性,因为它需要在良性与恶性原因之间同时进行评估。尽管如此,我们正积极探索解决方案。在此之前,上述的透明度和控制原则将显得尤为重要。

4. 保护扩展交互中的隐私

智能代理能够在不同任务和交互中保留信息,这带来了多重潜在的隐私问题。代理可能会不当地将敏感信息从一个情境带到另一个情境。例如,一个代理在协助部门进行组织规划时学习到机密的内部决策,随后在协助另一个部门时无意中引用了这些信息,从而泄露了本应保密的敏感事项。

代理所使用的工具和流程也应设计有适当的隐私保护和控制措施。我们创建的开源“模型上下文协议”(Model Context Protocol, MCP)允许Claude连接到其他服务,其中包括用户可以允许或阻止Claude在给定任务中访问特定工具和流程(我们称之为“连接器”)的控制功能。在实施MCP时,我们还增加了其他控制措施,例如授予一次性或永久访问信息的选项。企业管理员也可以设置其组织内的用户可以连接到哪些连接器。我们正在不断探索改进隐私保护工具的方法。

我们还概述了客户应采取的措施来保护其数据,例如通过访问权限、身份验证和数据隔离等措施。

5. 确保代理交互安全

代理系统应被设计用于保护敏感数据,并防止在与其他系统或代理交互时被滥用。由于代理的任务是实现特定目标,攻击者可能会通过使其看似为实现目标所必需的方式(也称为“提示注入”)来诱骗代理忽略其原始指令、泄露未经授权的信息或执行意外操作。此外,攻击者还可能利用代理所使用的工具或子代理中的漏洞。

Claude已经使用一套分类器来检测和防范诸如提示注入等滥用行为,并辅以其他多层安全措施。我们的威胁情报团队进行持续监控,以评估和缓解新兴的恶意行为。此外,我们还提供了关于使用Claude的组织如何进一步降低这些风险的指南。添加到我们Anthropic审查的MCP目录中的工具必须遵守我们的安全、保障和兼容性标准。

当我们通过监控和研究发现新的恶意行为或漏洞时,我们会努力迅速解决并持续改进我们的安全措施,以领先于不断演变的威胁。

展望与协作

随着我们持续开发和改进AI代理,我们对其风险和权衡的理解也将不断演进。我们计划定期修订和更新此框架,以反映我们对最佳实践的最新认识。

这些原则将指导我们当前和未来在代理开发方面的工作,我们期待与行业伙伴和各组织在此议题上展开广泛合作。AI代理在工作、教育、医疗保健和科学发现等领域具有巨大的积极影响潜力,因此,确保它们以最高标准构建至关重要。