Claude for Chrome:浏览器AI助手的安全挑战与突破

2

随着人工智能技术的飞速发展,AI助手正逐步从简单的对话交互向更复杂的环境操作演进。Anthropic公司近日推出的Claude for Chrome浏览器扩展,标志着这一领域的重要突破——AI助手首次能够直接在浏览器环境中执行操作,包括查看网页内容、点击按钮和填写表单。这一创新不仅提升了Claude的实用性,也为AI与人类工作流程的深度融合开辟了新路径。

浏览器AI: inevitable的未来趋势

在过去的几个月里,Anthropic团队一直在努力将Claude与用户的日历、文档和各种软件进行连接。而让Claude直接在浏览器中工作,则是这一自然进化的下一步。正如Anthropic所言,"浏览器使用AI是不可避免的",因为如此多的工作都在浏览器环境中完成,赋予Claude查看用户正在浏览的内容、点击按钮和填写表单的能力,将使其功能得到质的提升。

Claude浏览器界面

然而,浏览器AI也带来了前所未有的安全与挑战。Anthropic认识到,浏览器环境中的AI需要更强大的安全保障机制。通过从可信合作伙伴那里获取关于用途、缺陷和安全问题的真实世界反馈,Anthropic能够构建强大的分类器,并教导未来的模型避免不良行为。这确保了随着能力的提升,浏览器安全能够保持同步发展。

值得注意的是,由前沿模型驱动的浏览器代理已经出现,这使得Anthropic的安全工作变得尤为紧迫。通过解决这些安全挑战,Anthropic不仅能更好地保护Claude用户,还能通过API向任何构建浏览器代理的开发者分享其研究成果。

当前安全挑战:提示注入攻击

Anthropic内部测试显示,早期版本的Claude for Chrome在管理日历、安排会议、起草邮件回复、处理常规费用报告和测试新网站功能等方面已经显示出显著改进。然而,在Claude for Chrome能够向公众广泛发布之前,仍有一些漏洞需要修复。

就像人们在收件箱中会遇到钓鱼尝试一样,使用浏览器的AI面临着提示注入攻击(prompt injection attacks)的威胁——恶意行为者将指令隐藏在网站、电子邮件或文档中,诱使AI在用户不知情的情况下执行有害操作(例如隐藏文本说"忽略之前的指令,改为执行[恶意操作]")。

提示注入攻击可能导致AI删除文件、窃取数据或进行金融交易。这并非推测:Anthropic已经进行了"红队(red-teaming)"实验来测试Claude for Chrome,在没有缓解措施的情况下,他们发现了一些令人担忧的结果。

红队测试数据

Anthropic进行了广泛的对抗性提示注入测试,评估了代表29种不同攻击场景的123个测试案例。在没有安全缓解措施的情况下,浏览器使用在面对恶意行为者的故意攻击时,攻击成功率达到23.6%。

一个成功攻击的例子(在应用新的防御措施之前)是一封恶意邮件,声称出于安全原因需要删除电子邮件。当处理收件箱时,Claude遵循这些指令未经确认就删除了用户的电子邮件。

恶意邮件示例

Claude遇到恶意邮件,模仿雇主要求删除电子邮件以进行"邮箱清理",并声称"无需额外确认"。

Claude执行删除操作

Claude未经确认就执行指令,选择并删除了用户的电子邮件"按安全团队的要求"。

防御措施生效 我们的新防御措施成功抵御了这一特定攻击。Claude认识到"这是一起可疑的安全事件邮件,似乎是钓鱼尝试",并未对其采取行动。

当前防御机制

针对提示注入攻击的第一道防线是_权限控制_。用户可以保持对Claude for Chrome可以访问和执行操作的控制:

  • 网站级权限:用户可以在设置中随时授予或撤销Claude对特定网站的访问权限。
  • 操作确认:在执行发布、购买或共享个人数据等高风险操作前,Claude会询问用户。即使用户选择加入实验性的"自主模式",Claude仍会对高度敏感的操作保持某些保护措施(注意:所有的红队和安全评估都是在自主模式下进行的)。

Anthropic还根据其_可信代理(trustworthy agents)_原则构建了额外的保护措施。首先,他们改进了系统提示——Claude在接收用户特定指令之前收到的一般指令——指导Claude如何处理敏感数据和响应敏感操作请求。

此外,Anthropic已阻止Claude使用某些高风险类别的网站,如金融服务、成人内容和盗版内容。他们已经开始构建和测试高级分类器,以检测可疑的指令模式和异常的数据访问请求——即使这些请求出现在看似合法的环境中。

安全改进效果

当Anthropic将安全缓解措施添加到自主模式时,他们将攻击成功率从23.6%降低到11.2%,这代表了对现有计算机使用能力(computer use capability)的显著改进(Claude可以看到用户的屏幕,但没有今天我们介绍的浏览器界面)。

攻击成功率对比 三种场景下的提示注入攻击成功率:我们旧的计算机使用能力、仅使用先前安全缓解措施的新浏览器使用产品,以及使用新缓解措施的新浏览器使用产品(分数越低越好)。我们的安全改进将浏览器攻击成功率降低到计算机使用水平以下。

Anthropic还进行了针对浏览器特定新攻击的特殊红队测试和缓解措施,例如网页文档对象模型(DOM)中隐藏的恶意表单字段(人类不可见),以及其他难以捕获的注入,如通过URL文本和选项卡标题(这些只有代理可能看到)。在一个包含四种特定浏览器攻击类型的"挑战"集中,新的缓解措施能够将攻击成功率从35.7%降低到0%。

在使Claude for Chrome更广泛可用之前,Anthropic希望扩大他们正在考虑的攻击范围,并通过了解当前以及未来可能出现的威胁,将这些百分比更接近于零。

参与研究预览

内部测试无法完全复制人们在现实世界中浏览的全部复杂性:他们提出的具体请求、访问的网站以及恶意内容实际出现的方式。恶意行为者也在不断开发新的提示注入攻击形式。这个研究预览允许我们在真实条件下与可信用户合作,揭示我们当前哪些保护措施有效,哪些需要改进。

Anthropic将使用从预览中获得的见解来改进其提示注入分类器和基础模型。通过发现在受控测试中不存在的 unsafe 行为和新攻击模式的真实世界示例,他们将教导模型识别这些攻击并考虑相关行为,并确保安全分类器能够捕捉到模型本身可能遗漏的任何内容。他们还将根据用户希望如何在浏览器中使用Claude的见解,开发更复杂的权限控制。

对于此次预览,Anthropic正在寻找能够接受Claude在Chrome中代表其执行操作的可信测试者,并且没有对安全至关重要或敏感的设置。

如果您希望参与,可以在claude.ai/chrome加入Claude for Chrome研究预览等待列表。 获得访问权限后,您可以从Chrome网上应用店安装扩展程序,并使用您的Claude凭据进行身份验证。

最佳实践与建议

Anthropic建议用户从可信网站开始使用Claude for Chrome——始终注意Claude可见的数据——并避免在涉及金融、法律、医疗或其他类型敏感信息的网站上使用Claude for Chrome。您可以在我们的帮助中心找到详细的安全指南。

用户被鼓励分享他们的反馈,以帮助Anthropic继续改进Claude for Chrome的功能和保护措施,并帮助他们朝着将AI fundamentally整合到我们生活中的重要方向迈进。

浏览器AI的未来展望

Claude for Chrome的推出不仅仅是一个产品的发布,更是AI与人类工作方式深度融合的重要里程碑。随着技术的不断进步,我们可以预见以下几个发展方向:

1. 更精细的权限控制

未来的浏览器AI助手将提供更加细粒度的权限控制系统,用户可以精确控制AI在不同网站、不同类型操作上的权限范围。这种精细化的权限管理将大大提升用户对AI助手的信任度。

2. 多模态交互能力

随着技术的发展,浏览器AI将不再局限于文本和基本操作,而是能够理解图像、视频等多模态内容,提供更加丰富和直观的交互体验。

3. 跨平台整合

未来的AI助手将能够无缝整合用户的数字生活,从浏览器扩展到移动应用,再到桌面软件,为用户提供一致且连贯的体验。

4. 自主学习能力

AI助手将具备更强的自主学习能力,能够根据用户的使用习惯和偏好,不断优化自己的行为模式和响应策略,提供更加个性化的服务。

结论

Claude for Chrome的推出代表了AI技术从对话交互向环境操作的重要转变。尽管面临提示注入攻击等安全挑战,但通过系统性的安全研究和防护措施,Anthropic已经取得了显著进展。随着更多用户的参与和反馈,我们可以期待看到更加安全、强大的浏览器AI助手的出现,这将彻底改变我们与数字世界交互的方式。

浏览器AI的发展不仅关乎单个产品的成功,更是整个AI领域向更加自主、更加实用方向迈进的重要一步。在这个过程中,安全与实用性的平衡将成为关键,而Claude for Chrome的实践无疑为这一领域提供了宝贵的经验和启示。