构建可信赖AI智能体:平衡自主性与人类监督的五大核心原则

1

构建安全可信赖AI智能体的核心框架

当前最流行的人工智能工具通常是响应特定问题或指令的助理型系统。然而,我们正目睹一个全新趋势的兴起:能够自主执行任务的AI智能体。这些智能体在获得一个目标后,便能独立推进各项工作。您可以将智能体想象成一位虚拟的协作伙伴,它能够独立处理复杂的项目,从始至终无需过多干预,从而让您能专注于其他更重要的事务。

智能体具备自我导向的能力,能自主管理其工作流程和工具使用,以最小的人工输入完成任务。例如,如果您要求一个智能体“协助规划我的婚礼”,它可能会自主地研究场地和供应商、比较价格与可用性,并创建详细的时间表和预算。又或者,如果您指示它“准备公司董事会的演示文稿”,它可能会检索您Google Drive中相关的销售报告和财务文档、从多个电子表格中提取关键指标,并生成一份完整的报告。

在过去一年里,一些领先机构已推出或正在利用智能体技术。例如,某知名AI机构发布的智能体能够自主编写、调试和编辑代码,并已被广大软件工程师广泛使用。许多企业也正基于其模型构建自己的智能体。网络安全公司Trellix利用类似技术来分类和调查安全事件。而金融服务公司Block则构建了一个智能体,使得非技术员工能够通过自然语言访问其数据系统,大大节省了工程师的时间。

负责任智能体开发的基石原则

随着智能体技术的迅速普及,像我们这样的开发者构建安全、可靠和可信赖的智能体变得至关重要。本文旨在分享一个负责任的智能体早期开发框架。我们希望这个框架能有助于确立新兴行业标准,为不同应用场景提供可调整的指导,并为构建一个智能体与人类价值观相符的生态系统贡献力量。

在开发智能体时,我们致力于遵循以下核心原则:

一、平衡智能体自主性与人类控制权

智能体设计中一个核心的权衡点是平衡其自主性与人类监督。智能体必须能够自主工作——正是其独立运行的特性使其具有巨大价值。然而,人类应保留对其目标如何实现过程的控制权,尤其是在做出高风险决策之前。例如,一个帮助管理开支的智能体可能会识别出公司在软件订阅上超支。但在它开始取消订阅或降级服务层级之前,公司很可能希望由人工进行审批。

在实践中,这意味着需要设计灵活的控制机制。例如,在代码生成智能体中,用户应能随时停止其运行并重新定向其方法。它默认应具备只读权限,这意味着它可以在被初始化的目录内分析和审查信息而无需人工批准,但在采取任何修改代码或系统的行动之前,必须请求人工批准。对于信任智能体能够处理的日常任务,用户可以授予持久权限。

随着智能体变得日益强大和普遍,我们将需要更强大的技术解决方案和更直观的用户控制。自主性与监督之间的恰当平衡因场景而异,可能需要结合内置和可定制的监督功能。这不仅仅是技术挑战,更是用户体验和信任构建的关键环节。设计者需要考虑不同用户群体的需求,以及不同任务的风险等级,从而提供分级、可配置的控制选项,确保用户在享受智能体便利的同时,始终拥有最终的决策权和干预能力。

二、确保智能体行为的透明度

人类需要了解智能体解决问题的过程。缺乏透明度会导致用户在要求智能体“减少客户流失”时,对其开始联系设施团队询问办公室布局感到困惑。但有了良好的透明度设计,智能体可以解释其逻辑:“我发现分配给嘈杂开放办公区销售代表的客户流失率高出40%,因此我正在请求进行工作空间噪音评估,并提议重新分配办公桌以改善通话质量。”这种透明度也提供了引导智能体朝着正确方向前进的机会,例如通过事实核查其数据,或确保其使用最相关的来源。

在实际应用中,透明度可以通过多种方式实现。例如,通过实时“待办事项清单”展示智能体的计划行动,用户可以随时介入,询问或调整智能体的工作计划。挑战在于找到合适的细节水平。信息过少会导致人类无法评估智能体是否按计划实现目标;信息过多则可能让用户被无关细节淹没。如何在提供足够洞察力和避免信息过载之间取得平衡,需要持续的迭代和优化。未来的透明度设计可能包括更智能的解释生成,能够根据用户的专业背景和需求调整解释的粒度和深度,甚至结合可视化工具,让复杂的工作流程一目了然。

AI快讯

三、使智能体与人类价值观和期望保持一致

智能体并非总是按照人类的意图行事。研究表明,当AI系统自主追求目标时,它们有时会采取在系统看来合理但并非人类实际期望的行动。例如,如果人类要求智能体“整理我的文件”,智能体可能会自动删除它认为是重复的文件,并将文件移动到新的文件夹结构中——这远远超出了简单的整理,变成了彻底重构用户系统。尽管这源于智能体试图提供帮助,但它表明即使目标一致,智能体也可能缺乏适当行动所需的上下文。

更令人担忧的是,智能体以积极对抗用户利益的方式追求目标的情况。极端情景测试显示,当AI系统自主追求目标时,它们有时会采取在系统看来合理但却违背人类实际意图的行动。用户也可能无意中以导致意外结果的方式提示智能体。

构建衡量智能体价值观对齐的可靠标准具有挑战性。同时评估问题的恶意和良性原因都很困难。但我们正积极研究如何解决这个问题。在此问题解决之前,上述透明度和控制原则将显得尤为重要。实现价值观对齐,需要深入理解人类的伦理、偏好和潜在的误解。这涉及复杂的跨学科研究,包括心理学、社会学和哲学,以便将这些抽象概念转化为可操作的AI设计原则和评估指标。此外,持续的用户反馈循环和红队测试对于发现和修正偏差至关重要。

四、在扩展交互中保护隐私

智能体可以在不同任务和交互之间保留信息。这会带来几个潜在的隐私问题。智能体可能会不恰当地将敏感信息从一个上下文带到另一个上下文。例如,一个智能体在协助组织规划时,可能会从某个部门了解到机密内部决策,然后不经意地在协助另一个部门时引用这些信息——从而泄露本应保密的事项。

智能体利用的工具和流程也应设计有适当的隐私保护和控制措施。例如,某机构创建的开源“模型上下文协议”(MCP),允许智能体连接到其他服务,其中包含控制选项,使用户可以允许或阻止智能体在特定任务中访问特定的工具或我们所说的“连接器”。在实施MCP时,还包含了额外的控制,例如授予一次性或永久访问信息的选项。企业管理员也可以设置其组织内的用户可以连接哪些连接器。我们正在持续探索改进隐私保护工具的方法。

此外,我们还为客户提供了指导,告知他们应采取哪些措施来保护其数据,例如访问权限、身份验证和数据隔离。隐私保护不仅仅是技术问题,更需要健全的政策和用户教育。组织需要建立明确的数据使用准则,并对员工进行培训,以确保他们在与智能体交互时,能够理解和应用隐私保护的最佳实践。

五、强化智能体交互的安全性

智能体系统在与其他系统或智能体交互时,应设计以保障敏感数据并防止滥用。由于智能体被赋予实现特定目标的任务,攻击者可能会通过使其看似必要的方式来欺骗智能体,使其忽略原始指令、泄露未经授权的信息或执行意外操作(也称为“提示注入”)。或者攻击者可能利用智能体使用的工具或子智能体中的漏洞。

现有的智能体系统已经通过一系列防御措施来应对这些威胁。例如,某些智能体使用分类器系统来检测和防范提示注入等滥用行为,并辅以其他多层安全措施。威胁情报团队进行持续监控,以评估和缓解新出现的恶意行为。此外,我们提供指导,说明使用智能体的组织如何进一步降低这些风险。添加到经过审查的MCP目录中的工具必须遵守严格的安全、安全性和兼容性标准。当通过我们的监控和研究发现新的恶意行为或漏洞时,我们努力快速解决它们并不断改进安全措施,以应对不断演变的新威胁。

安全性是一个动态的领域,需要持续的警惕和适应。未来的智能体安全将涉及更高级的威胁建模、形式化验证、加密技术以及去中心化身份管理,以构建更具韧性的智能体生态系统。同时,跨行业的安全协作和信息共享对于应对日益复杂的网络威胁至关重要。

展望未来

随着我们不断开发和改进智能体,我们对智能体风险和权衡的理解也将不断演变。随着时间的推移,我们将计划修订和更新本框架,以反映我们对最佳实践的最新观点。

这些原则将指导我们当前和未来的智能体开发工作,我们期待在这一主题上与更多公司和组织进行协作。智能体在工作、教育、医疗保健和科学发现等领域具有巨大的积极潜力。正因如此,确保它们以最高标准构建显得尤为重要。通过采纳这些全面而前瞻性的原则,我们不仅能够释放智能体技术的巨大价值,还能确保其发展路径与人类的福祉和长远利益相符,真正实现AI普惠的愿景。