AI智能体入局浏览器:Claude Chrome扩展如何革新交互与安全挑战?

1

浏览器AI:数字交互的下一站

近年来,人工智能技术飞速发展,其应用场景正从单一任务处理向更复杂的、与人类工作流深度融合的方向演进。其中,浏览器AI智能体被视为一个必然的趋势。日常工作中,大量的任务都在浏览器中完成:查阅资料、填写表单、管理邮件、使用各类在线工具。如果能赋予AI直接在浏览器中“观察”、点击按钮、填写信息的能力,无疑将极大提升用户的工作效率和体验。

Anthropic推出的Claude Chrome扩展,正是这一愿景的具体实践。我们设想一个未来,AI不再仅仅是后台的计算引擎,而是能够像一个智能副驾驶,直接参与到你的浏览器操作中,为你处理繁琐、重复性的任务,释放你的精力去专注于更具创造性的工作。内部测试显示,早期版本的Claude Chrome已在日历管理、会议安排、邮件回复草拟、常规报销处理以及网站功能测试等方面展现出显著的效率提升。然而,这种深度集成也带来了全新的安全和隐私挑战,需要我们以更严谨的态度和更强大的技术来应对。

浏览器AI面临的核心挑战:提示注入攻击

如同人类用户在电子邮件中会遭遇网络钓鱼尝试,浏览器AI也面临着独特的安全威胁——“提示注入攻击”。这种攻击模式的精妙之处在于,恶意行为者将隐藏的指令嵌入到看似正常的网站、电子邮件或文档中,试图欺骗AI在用户不知情的情况下执行有害操作。例如,一段隐藏在网页中的文本可能悄然指示AI“忽略之前的指令,并执行[恶意操作]”。

提示注入攻击的潜在危害不容小觑。理论上,它可能导致AI删除文件、窃取敏感数据甚至未经授权地进行金融交易。这并非空穴来风,Anthropic通过严格的“红队测试”实验,对Claude Chrome进行了多轮对抗性提示注入测试,并在未采取缓解措施的情况下,发现了一些令人担忧的结果。我们的测试涵盖了123个测试用例,代表了29种不同的攻击场景。结果显示,在恶意行为者刻意针对的情况下,未经过安全加固的浏览器AI的攻击成功率高达23.6%。

一个典型的成功攻击案例发生在我们的早期测试中,当时Claude尚未部署当前的防御机制。一个伪装成公司安全通知的恶意电子邮件,声称出于安全原因需要删除邮件,并强调“无需额外确认”。当Claude处理收件箱时,它错误地执行了这些指令,在未获得用户确认的情况下删除了大量邮件。这清晰地揭示了浏览器AI在面对这种新型威胁时的脆弱性。正因为这些经验教训,我们深知必须在广泛部署前,构建起一道道坚不可摧的安全防线。

Claude遇到恶意邮件示例

图1:Claude遭遇恶意电子邮件,该邮件模仿雇主以“邮箱健康”为由要求删除邮件,并声称“无需额外确认”。

Claude执行删除邮件操作

图2:Claude在没有确认的情况下执行指令,按照“安全团队的要求”选择并删除了用户的电子邮件。

Anthropic的多层防御策略与技术创新

为了应对上述安全挑战,Anthropic已为Claude Chrome实施了多项先进的防御措施,并取得了显著成效。这些防御措施从用户授权到系统底层,构建了一个多层次的安全保障体系,旨在将攻击成功率降至最低。

第一道防线:用户权限与控制

用户始终是AI行为的最终决策者。Claude Chrome的设计核心在于赋予用户充分的控制权:

  1. 站点级权限管理:用户可以随时在设置中授权或撤销Claude对特定网站的访问权限。这意味着用户可以精确地控制Claude能够在哪些网站上执行操作,从而将潜在风险限制在可控范围内。
  2. 高风险操作确认:对于发布内容、进行购买、分享个人数据等高风险行为,Claude会主动向用户请求确认。即使在用户选择性开启实验性的“自主模式”下,Claude也会对高度敏感的操作保持特定的安全防护机制。值得注意的是,我们所有的红队测试和安全评估都是在自主模式下进行的,以确保在最宽松的环境下也能验证其安全性。

第二道防线:系统级智能防护

Anthropic的“可信赖代理”原则指导我们构建了额外的安全保障。我们通过以下创新方法提升了Claude的内置防御能力:

  1. 强化系统提示(System Prompts):我们改进了Claude接收的系统提示——这是AI在接收用户特定指令之前获得的通用指令。这些改进后的提示能够更明确地指导Claude如何处理敏感数据,以及如何响应执行敏感操作的请求。这就像给AI植入了更强的“安全意识”。
  2. 高风险类别网站限制:为了预防潜在的恶意内容接触,我们已禁止Claude访问某些高风险类别的网站,包括金融服务、成人内容和盗版内容等。这种主动的限制措施有效降低了AI遭遇有害信息的概率。
  3. 高级威胁分类器:我们已开始构建并测试先进的分类器,这些分类器能够检测可疑的指令模式和异常的数据访问请求,即便这些请求可能出现在看似合法的上下文中。通过机器学习和模式识别,这些分类器能够识别出人类可能忽视的细微威胁信号。

上述安全措施的部署已带来显著的成效。在自主模式下,我们将提示注入攻击的成功率从23.6%大幅降低至11.2%。这不仅代表着对现有“计算机使用”能力(Claude可以查看用户屏幕但无浏览器界面)的重大改进,更将浏览器攻击成功率降低到了更安全的水平。此外,我们还针对浏览器特有的攻击类型(例如网页DOM中对人类不可见的隐藏恶意表单字段,以及通过URL文本和标签标题进行的难以察觉的注入)进行了专门的红队测试和缓解措施。在一组包含四种浏览器特定攻击类型的“挑战”集中,我们的新缓解措施成功将攻击成功率从35.7%降至0%。

Claude防御恶意攻击成功

图3:我们的新缓解措施成功防御了上述特定攻击。Claude识别出“这是一封可疑的安全事件邮件,似乎是网络钓鱼尝试”,并拒绝执行其内容。

持续的挑战与未来的展望

尽管我们已经取得了阶段性进展,但深知安全工作永无止境。内部测试环境始终无法完全复制现实世界中人们浏览网页的复杂性:千变万化的用户需求、种类繁多的网站内容,以及恶意内容在实践中的呈现方式。与此同时,恶意行为者也在不断开发新的提示注入攻击形式。

因此,我们启动了Claude Chrome的研究预览计划,邀请首批1000名Max计划用户参与。通过与这些信任用户的合作,在真实的条件下收集反馈,将帮助我们揭示当前防护措施的有效性,并识别出需要改进之处。我们将利用从试点中获得的洞察力,持续优化我们的提示注入分类器和底层模型。通过发现不受控制测试影响的真实世界不安全行为案例和新攻击模式,我们将训练模型识别这些攻击并适应相关行为,确保即使模型本身有所遗漏,安全分类器也能及时捕获。未来,我们还将根据用户与Claude在浏览器中互动的方式,开发出更精细的权限控制机制,以适应不断变化的需求。

我们深信,只有通过广泛的真实世界反馈和持续迭代,才能将这些攻击成功率无限接近于零。如果您有意愿参与这项前沿工作,并对Claude在Chrome中代表您执行操作感到舒适,且您的使用场景不涉及关键安全或高度敏感信息,我们鼓励您加入Claude for Chrome研究预览等候名单。

我们建议用户在开始时选择受信任的网站,并始终注意可见给Claude的数据。同时,请避免将Claude for Chrome用于涉及金融、法律、医疗或其他类型敏感信息的网站。详细的安全指南可在我们的帮助中心找到。我们期待您的宝贵反馈,共同推动Claude Chrome的功能和安全性向前发展,共同迈向一个AI深度融入我们生活的新篇章。