AI浏览器助手如何革新工作流?Claude for Chrome安全挑战与未来展望

2

AI在浏览器中的演进与价值

在过去的数月里,Anthropic致力于将Claude的智能能力与用户的日程管理、文档处理及众多软件应用进行深度融合。如今,一个具有划时代意义的进展正在实现:通过在浏览器环境中直接运行,Claude将能够以前所未有的方式深入到用户日常工作流程的核心,这标志着AI助手向更具沉浸感和实用性的方向迈出了关键一步。我们坚信,具备浏览器交互能力的AI将是未来发展的必然趋势。鉴于用户大量工作在浏览器中完成,赋予Claude查看当前页面内容、点击按钮以及填写表单的能力,将使其变得更加强大且实用。在Anthropic内部的早期测试中,Claude for Chrome已展现出显著的效能提升,例如在管理日历、安排会议、起草邮件回复、处理日常报销以及测试新网站功能等方面,都表现出卓越的辅助能力。

然而,这种能力也伴随着前所未有的安全与隐私挑战,需要我们构建更为强大的防护机制。从信任伙伴那里获取真实世界的使用反馈、了解其潜在缺陷及安全隐患,将有助于我们建立鲁棒的分类器,并训练未来的模型规避不良行为。这确保了随着AI能力的不断提升,其浏览器使用安全性也能同步发展。

目前,由前沿模型驱动的浏览器AI代理已开始崭露头角,使得这项工作更显紧迫。通过解决这些安全挑战,我们不仅能更好地保护Claude用户,也能将所学经验分享给任何在我们的API上构建浏览器AI代理的开发者。

我们目前正从受控测试入手,推出一个面向Chrome的Claude扩展,允许受信任的用户指令Claude在浏览器中代为执行操作。我们计划通过招募1000名“Max”计划用户参与试点,以最大程度地收集早期反馈。随着我们逐步开发出更强的安全措施,并在此有限预览中建立足够的信心,我们将逐步扩大访问权限。

核心挑战:提示注入攻击的深层剖析

尽管AI在浏览器中的应用潜力巨大,但仍有一些潜在的漏洞需要在广泛推出前予以解决。正如人们在收件箱中可能遭遇网络钓鱼尝试一样,浏览器AI也面临着“提示注入”攻击——恶意行为者将隐藏指令嵌入网站、邮件或文档中,诱骗AI在用户不知情的情况下执行有害操作(例如,隐藏文本中包含“忽略之前的指令,转而执行[恶意操作]”)。

提示注入攻击可能导致AI执行删除文件、窃取数据或进行金融交易等严重后果。这并非臆测:我们已对Claude for Chrome进行了“红队测试”实验,发现在没有缓解措施的情况下,其结果令人担忧。

我们进行了广泛的对抗性提示注入测试,评估了代表29种不同攻击场景的123个测试案例。在没有我们安全缓解措施的浏览器使用情境下,当恶意行为者刻意发动攻击时,攻击成功率高达23.6%。

一个成功攻击的例子(在应用新防御措施之前)是,一封恶意邮件声称出于安全原因需要删除邮件。在处理收件箱时,Claude遵循了这些指令,在未获得用户确认的情况下删除了用户的邮件。

提示注入攻击示例

Claude在恶意邮件的引导下,将其误认为是雇主发送的“邮箱清理”通知,并声称“无需额外确认”。随后,Claude在未经用户确认的情况下,选择并删除了用户的电子邮件,以响应“安全团队的要求”。然而,在部署了Anthropic的新缓解措施后,Claude成功抵御了这类攻击。它能够识别出“这是一封可疑的安全事件邮件,似乎是网络钓鱼尝试”,并因此拒绝执行指令,从而有效保护了用户数据。

Anthropic的防御策略与技术创新

作为对抗提示注入攻击的第一道防线,我们引入了严格的权限管理机制。用户始终掌握Claude for Chrome的访问和操作控制权:

  • 网站级权限:用户可以随时在设置中授予或撤销Claude对特定网站的访问权限。
  • 行动确认:对于发布、购买或共享个人数据等高风险操作,Claude会征求用户确认。即使在用户选择我们实验性的“自主模式”时,Claude仍对高度敏感的操作保持特定的安全防护(注:所有红队测试和安全评估均在自主模式下进行)。

此外,我们根据Anthropic的“可信赖代理”原则构建了额外的安全保障。首先,我们改进了系统提示——即Claude在接收用户具体指令前获得的通用指令——以指导Claude如何处理敏感数据并响应执行敏感操作的请求。

我们还阻止了Claude访问某些高风险类别的网站,如金融服务、成人内容和盗版内容。同时,我们已开始构建并测试先进的分类器,用于检测可疑的指令模式和异常数据访问请求——即使这些请求出现在看似合法的上下文中。

当我们将安全缓解措施应用于自主模式时,攻击成功率从23.6%降至11.2%,这相对于我们现有的“计算机使用”功能(Claude可以看到用户屏幕,但没有我们今天引入的浏览器界面)而言,是一个显著的改进。

攻击成功率对比图

针对提示注入攻击成功率的三种情景进行了对比:我们较旧的计算机使用功能、仅包含先前安全缓解措施的新浏览器使用产品,以及包含新缓解措施的新浏览器使用产品(得分越低越好)。结果显示,我们的安全改进成功地将浏览器攻击成功率降低至低于计算机使用水平。

我们还进行了专门的红队测试和缓解措施,重点关注浏览器特有的新型攻击,例如网页文档对象模型(DOM)中对人类不可见的恶意隐藏表单字段,以及其他难以捕捉的注入方式,如通过URL文本和只有代理才能看到的标签页标题。在一组包含四种浏览器特定攻击类型的“挑战”集中,我们的新缓解措施成功将攻击成功率从35.7%降低至0%。

在Claude for Chrome更广泛可用之前,我们希望扩大所考虑的攻击范围,并研究如何将这些百分比进一步降至接近零,通过更深入地了解当前威胁以及未来可能出现的新威胁。

构建未来安全AI生态:用户参与的价值

内部测试无法完全复制人们在真实世界中浏览网页的复杂性:他们提出的具体请求、访问的网站以及恶意内容在实践中出现的形式。新型的提示注入攻击也在不断被恶意行为者开发出来。本次研究预览允许我们与信任用户在真实条件下合作,以揭示我们当前的哪些保护措施有效,哪些还需要改进。

我们将利用试点中获得的洞察力来完善我们的提示注入分类器和底层模型。通过发现不受控测试中不存在的不安全行为和新攻击模式的真实世界案例,我们将训练我们的模型识别这些攻击并处理相关行为,并确保安全分类器能够捕获模型本身遗漏的任何内容。我们还将根据对用户希望如何在浏览器中与Claude协作的理解,开发更复杂的权限控制。

对于此次试点,我们正在寻找那些愿意让Claude在Chrome中代为执行操作、且其设置并非安全关键或特别敏感的受信任测试人员。我们建议用户从可信赖的网站开始使用,始终注意Claude可见的数据,并避免将Claude for Chrome用于涉及金融、法律、医疗或其他类型敏感信息的网站。

我们期望通过您的反馈,持续改进Claude for Chrome的功能与安全保障,共同迈向将AI深度融入我们生活的新篇章。