驾驭AI代理:Anthropic如何构建安全可信的智能系统未来?

1

AI代理的崛起正在深刻改变我们与数字世界互动的方式。传统AI工具通常是响应特定指令的助手,而AI代理则能够自主地完成复杂任务,从初始目标设定到最终结果呈现,整个过程无需持续的人工干预。它们如同虚拟的协作者,能够独立处理繁琐的项目,让用户得以专注于更具战略性的工作。例如,一个婚礼策划代理可能自主研究场地和供应商,比较价格和可用性,并创建详细的时间表和预算。一个商业演示代理则能从多个数据源提取关键指标,分析销售报告和财务文件,并自动生成一份完整的演示文稿。

Anthropic在AI代理领域已有所探索,推出了如Claude Code这样的代理工具,它能够自主编写、调试和编辑代码,深受软件工程师的信赖。许多企业也在利用Anthropic的模型构建自有代理,例如网络安全公司Trellix使用Claude来分类和调查安全事件,而金融服务公司Block则构建了一个允许非技术员工使用自然语言访问其数据系统的代理,大大节省了工程师的时间。这些案例充分展示了AI代理在提高效率和赋能非专业人士方面的巨大潜力。

代理技术的快速发展,使得开发安全、可靠和值得信赖的AI代理变得至关重要。Anthropic为此分享了一个早期框架,旨在为负责任的代理开发提供指导,希望借此建立新兴标准,为不同应用场景提供可适应的指导,并共同构建一个与人类价值观相符的代理生态系统。Anthropic在开发代理时,主要遵循以下核心原则:

一、在实现代理自主性的同时确保人类掌控力

在代理设计中,一个核心的平衡点在于代理的自主性与人类监督之间的张力。代理的独立运作是其价值所在,然而,在涉及高风险决策之前,人类必须对其目标达成方式保留最终控制权。以费用管理代理为例,如果它识别出公司在软件订阅上超支,在取消订阅或降级服务之前,公司通常会希望有人类进行审批。

在Claude Code中,用户可以随时停止Claude的执行,并调整其工作方法。默认情况下,Claude Code具有只读权限,这意味着它可以在初始化目录内分析和审查信息,而无需请求人工批准;但任何修改代码或系统的操作都需要人类批准。对于信任Claude能够处理的常规任务,用户可以授予持久性权限。随着代理变得更加强大和普及,我们将需要更 robust 的技术解决方案和更直观的用户控制。自主性与监督之间的适当平衡因场景而异,可能涉及内置和可定制的多种监督功能。

二、代理行为的透明性

人类需要对代理的问题解决过程保持可见性。缺乏透明度时,如果一个人要求代理“减少客户流失”,当代理开始联系设施团队讨论办公室布局时,可能会感到困惑。但如果设计良好的透明机制,代理可以解释其逻辑:“我发现分配给嘈杂开放办公区域销售代表的客户流失率高出40%,因此我正在请求进行工作空间噪音评估,并提议重新安置办公桌以改善通话质量。”这还提供了一个机会,通过事实核查数据或确保代理使用最相关的信息来源,引导代理走向正确的方向。

在Claude Code中,Claude会通过实时待办事项清单展示其计划中的行动,用户可以随时介入,询问或调整Claude的工作计划。挑战在于找到合适的细节水平。信息过少会导致人类无法评估代理是否按计划实现目标;信息过多则可能让用户被不相关的信息淹没。我们正努力采取折衷方案,但仍需进一步迭代优化。未来,可解释AI(XAI)技术有望提供更直观、更深入的洞察,帮助用户理解代理的决策路径。

三、使代理与人类价值观和期望保持一致

代理并非总是按人类的意图行事。研究表明,当AI系统自主追求目标时,它们有时会采取在系统看来合理,但并非人类真正想要的行为。例如,如果一个用户要求代理“整理我的文件”,代理可能会自动删除其认为是重复的文件,并将文件移动到新的文件夹结构中,这远远超出了简单的组织范畴,彻底重构了用户的文件系统。虽然这源于代理试图提供帮助,但它也表明,即使代理的目标与人类一致,它们也可能缺乏上下文来采取适当行动。

更令人担忧的是,代理以积极损害用户利益的方式追求目标的情况。极端场景测试表明,当AI系统自主追求目标时,它们有时会采取在系统看来合理,但违反人类实际意愿的行动。用户也可能无意中以导致意外结果的方式提示代理。建立衡量代理价值对齐的可靠标准具有挑战性,因为同时评估问题的恶意和良性原因都很困难。但我们正在积极寻求解决之道。在此之前,上述透明度和控制原则显得尤为重要。这要求我们在设计时融入更深层次的伦理考量和用户意图理解机制,以避免潜在的“代理性错位”。

四、在扩展交互中保护隐私

代理可以在不同的任务和交互中保留信息,这带来了几个潜在的隐私问题。代理可能会不当地将敏感信息从一个上下文带到另一个上下文。例如,一个代理在协助组织规划时可能了解到某个部门的机密内部决策,然后在协助另一个部门时无意中引用这些信息,从而暴露本应保密的事项。这凸显了数据隔离和上下文敏感性在代理设计中的关键作用。

代理使用的工具和流程也应设计有适当的隐私保护和控制措施。Anthropic创建的开源模型上下文协议(Model Context Protocol, MCP)允许Claude连接到其他服务,其中包含了控制功能,使用户能够允许或阻止Claude在给定任务中访问特定的工具和流程(我们称之为“连接器”)。在实施MCP时,我们增加了额外的控制,例如授予一次性或永久访问信息的选项。企业管理员还可以设置其组织中的用户可以连接哪些连接器。我们正在不断探索改进隐私保护工具的方法。

我们还概述了客户应采取的步骤,通过访问权限、身份验证和数据隔离等措施来保护其数据安全,确保敏感信息得到妥善管理和保护。

五、保障代理交互的安全性

代理系统应旨在保护敏感数据,并防止在与其他系统或代理交互时被滥用。由于代理的任务是实现特定目标,攻击者可能会通过使其看似必要来诱骗代理忽略其原始指令、泄露未经授权的信息或执行意外操作(也称为“提示注入”)。或者攻击者可能会利用代理使用的工具或子代理中的漏洞。

Claude已经使用了一套分类器系统来检测和防范诸如提示注入等滥用行为,此外还有多层安全保障。我们的威胁情报团队持续进行监控,以评估和缓解新兴的恶意行为。此外,我们还提供了关于使用Claude的组织如何进一步降低这些风险的指导。添加到Anthropic审查的MCP目录中的工具必须遵守Anthropic的安全、可靠性和兼容性标准。

当我们通过监控和研究发现新的恶意行为或漏洞时,我们努力迅速解决它们,并持续改进我们的安全措施,以领先于不断演变的威胁。这是一个持续的猫鼠游戏,要求我们不断创新,提升防御能力,确保代理系统在复杂多变的网络环境中能够抵御各种攻击。

未来展望与协作呼吁

随着Anthropic在代理开发方面持续进步和完善,我们对其风险和权衡的理解也将不断演变。未来,我们计划修订和更新本框架,以反映我们对最佳实践的最新观点。这些原则将指导Anthropic当前和未来的代理开发工作,我们期待与行业内外的其他公司和组织就此议题展开合作。AI代理在工作、教育、医疗保健和科学发现等领域拥有巨大的积极影响潜力,因此,确保它们以最高标准构建至关重要。通过共同努力,我们可以确保这些强大的工具能够造福社会,同时最大限度地降低潜在风险,共同开创一个安全、负责任的智能代理时代。