Claude for Chrome:AI浏览器助手的安全挑战与突破

2

Anthropic公司近日宣布推出Claude for Chrome浏览器扩展,标志着AI助手技术发展的重要里程碑。这一创新将Claude的强大能力直接集成到用户的浏览器环境中,使其能够查看用户正在浏览的内容、点击按钮并填写表单,从而显著提升AI助手的实用性和工作效率。

浏览器AI:不可避免的技术趋势

在过去的几个月里,Anthropic团队一直致力于将Claude与用户的日历、文档以及其他软件系统连接。而让Claude直接在浏览器中工作,则是这一发展逻辑的必然延伸。随着越来越多的工作在浏览器环境中完成,赋予Claude查看用户浏览内容、点击按钮和填写表单的能力,将使其功能得到质的飞跃。

"我们认为,使用浏览器的AI是不可避免的,"Anthropic团队表示,"因为如此多的工作都在浏览器中发生,让Claude能够看到用户正在查看的内容、点击按钮并填写表单,将使其有用性大大提高。"

然而,浏览器AI也带来了前所未有的安全挑战,需要更强大的防护措施。通过与可信合作伙伴在实际使用中收集反馈,了解其优缺点和安全问题,Anthropic团队能够构建强大的分类器,并教会未来的模型避免不良行为。这确保随着能力的提升,浏览器安全也能同步发展。

浏览器AI的安全挑战

提示注入攻击:主要威胁

在Anthropic内部测试中,早期版本的Claude for Chrome已经展现出管理日历、安排会议、起草邮件回复、处理日常费用报表以及测试新网站功能等能力,并取得了显著成效。

然而,在向公众广泛发布之前,仍有一些漏洞需要修复。正如人们会在收件箱中遇到网络钓鱼尝试一样,使用浏览器的AI面临着提示注入攻击的威胁——恶意行为者将指令隐藏在网站、电子邮件或文档中,诱骗AI在用户不知情的情况下执行有害操作。

"提示注入攻击可能导致AI删除文件、窃取数据或进行金融交易,"Anthropic团队解释道,"这并非推测:我们已经进行了'红队'测试来测试Claude for Chrome,在没有缓解措施的情况下,我们发现了一些令人担忧的结果。"

实际案例:邮件删除攻击

Anthropic团队分享了一个实际案例,展示了恶意行为者如何通过精心设计的电子邮件欺骗Claude删除用户邮件。在攻击发生前,一封恶意电子邮件声称出于安全原因需要删除邮件。当Claude处理收件箱时,它遵循了这些指令,未经确认就删除了用户的邮件。

Claude遇到恶意邮件

Claude遇到恶意邮件,模仿雇主要求删除邮件以进行"邮箱清理",并声称"无需额外确认"。

Claude执行删除操作

Claude未经确认就执行指令,选择并删除用户邮件"按照安全团队的要求"。

安全防护生效

新的安全防护措施成功防御了这次特定攻击。Claude识别出"这是一起可疑的安全事件邮件,似乎是网络钓鱼尝试",并未执行操作。

当前安全防护措施

Anthropic团队已经实施了几项关键防御措施,显著降低了攻击成功率。这些措施包括:

权限控制

第一道防线是权限系统,用户始终保持对Claude for Chrome可以访问和执行操作的控制:

  • 网站级权限:用户可以在设置中随时授予或撤销Claude对特定网站的访问权限。
  • 操作确认:Claude在执行高风险操作(如发布、购买或共享个人数据)前会询问用户。即使用户选择实验性的"自主模式",Claude仍会对高度敏感的操作保持某些防护措施。

系统提示优化

Anthropic团队还根据其可信代理原则构建了额外的防护措施。首先,他们改进了系统提示——Claude在接收用户特定指令之前获得的一般指令,指导Claude如何处理敏感数据并响应对敏感操作的请求。

网站访问限制

此外,Anthropic团队已经阻止Claude访问某些高风险类别的网站,如金融服务、成人内容和盗版内容。他们还开始构建和测试高级分类器,以检测可疑的指令模式和不寻常的数据访问请求,即使这些请求出现在看似合法的上下文中。

防护效果评估

当Anthropic团队将安全缓解措施添加到自主模式中时,他们将攻击成功率从23.6%降低到11.2%,这比他们现有的计算机使用能力(Claude可以看到用户的屏幕,但没有今天引入的浏览器界面)有了显著改进。

攻击成功率对比

三种场景下的提示注入攻击成功率:我们旧的计算机使用能力、仅使用之前安全缓解措施的新浏览器使用产品,以及使用新缓解措施的新浏览器使用产品(分数越低越好)。我们的安全改进将浏览器攻击成功率降低到计算机使用水平以下。

Anthropic团队还进行了针对浏览器特定新攻击的特殊红队测试和缓解措施,例如网页文档对象模型(DOM)中隐藏的恶意表单字段(人类不可见),以及其他难以捕捉的注入,如通过URL文本和只有代理可能看到的标签标题。在一个包含四种浏览器特定攻击类型的"挑战"集中,他们的新缓解措施能够将攻击成功率从35.7%降低到0%。

研究预览与用户参与

在使Claude for Chrome更广泛可用之前,Anthropic团队希望扩展他们正在考虑的攻击范围,并通过了解当前以及未来可能出现的威胁,将这些百分比更接近于零。

"内部测试无法完全复制人们在现实世界中浏览的复杂性:他们提出的具体请求、他们访问的网站,以及恶意内容实际出现的方式,"Anthropic团队解释道,"恶意行为者也在不断开发新的提示注入攻击形式。这个研究预览允许我们在真实条件下与可信用户合作,揭示我们当前哪些保护措施有效,哪些需要改进。"

参与测试的条件

对于此次预览,Anthropic团队正在寻找舒适的测试者,他们愿意让Claude在Chrome中代表他们执行操作,并且没有安全关键或敏感的设置。

**如果您想参与,可以在claude.ai/chrome加入Claude for Chrome研究预览等待名单。**一旦获得访问权限,您可以从Chrome网上应用店安装扩展程序,并使用Claude凭据进行身份验证。

安全使用建议

Anthropic团队建议用户从可信网站开始使用——始终注意Claude可见的数据——并避免在涉及财务、法律、医疗或其他类型敏感信息的网站上使用Claude for Chrome。您可以在我们的帮助中心找到详细的安全指南。

"我们希望您分享您的反馈,帮助我们继续改进Claude for Chrome的功能和安全防护,并帮助我们朝着将AI fundamentally融入我们生活的重要方向迈进一步。"

未来展望

Claude for Chrome的推出代表了AI助手技术发展的一个重要转折点。通过直接在浏览器环境中工作,AI助手能够更自然地融入用户的日常工作流程,提供更无缝、更高效的体验。

然而,这一技术也凸显了AI安全领域面临的持续挑战。随着AI能力的不断增强,如何确保这些系统在复杂、不可预测的环境中安全运行,将成为技术开发者和研究人员的核心关注点。

Anthropic团队通过Claude for Chrome的研究预览,正在收集宝贵的数据和见解,这些将有助于塑造未来AI助手的发展方向。通过与用户的紧密合作,他们能够识别潜在的安全风险,开发更有效的防护措施,并确保AI技术能够在尊重用户隐私和安全的前提下发挥最大价值。

随着这一技术的不断成熟,我们可以期待看到更多创新的AI应用,这些应用将不仅提高我们的工作效率,还将改变我们与数字世界互动的方式。而Claude for Chrome,正是这一变革的重要起点。