意外的隐私泄露
过去几个月,ChatGPT用户面临一个令人不安的隐私问题:极其私密和敏感的对话内容竟然出现在了一个意想不到的地方——Google Search Console(GSC)。这个本供开发者监控搜索流量的工具,却意外成为了窥探私人对话的窗口。
通常,网站管理员访问GSC性能报告时,看到的是基于关键词或短语的查询,这些是互联网用户在Google中输入以找到相关内容的内容。但从今年9月开始,GSC中开始出现奇怪的查询,有时长度超过300个字符。这些对话只显示用户输入,似乎来自不知情的人们,他们正在请求聊天机器人帮助解决关系或业务问题,并期望这些对话保持私密。
专家发现与初步调查
Jason Packer,一家名为Quantable的分析咨询公司所有者,是上个月在详细博客中率先标记此问题的专家之一。
为了弄清楚泄露的确切原因,他联合了"网络侦探"和网页优化顾问Slobodan Manić。他们共同进行的测试可能揭示了"OpenAI直接抓取Google搜索并使用实际用户提示的第一个确凿证据"。他们的调查似乎证实,这家AI巨头在某些情况下正在侵犯用户隐私,通过获取Google原本不会分享的搜索数据来维持用户参与度。
OpenAI拒绝Ars的请求,确认Packer和Manić在博客中提出的理论是否正确,或回答任何可以帮助用户确定问题范围的剩余问题。
然而,OpenAI发言人确认,公司已经"意识到"这个问题,并且已经"解决"了一个"暂时影响少量搜索查询路由"的故障。
泄露的独特性
Packer告诉Ars,他认为这次泄露比之前的ChatGPT泄露"更奇怪"。他审查的第一个奇怪查询似乎来自一位可能女性用户的意识流,她要求ChatGPT评估某些行为,以帮助她判断一个戏弄她的男孩是否有好感。另一个奇怪的查询似乎来自一位办公室经理,他在分享业务信息的同时,正在策划一个重返办公室的公告。
这些只是他在一个网站上审查的200多个奇怪查询中的两个,其中包含"一些相当疯狂的查询",Packer告诉Ars。
Packer怀疑这些查询与《The Information》8月份的报道有关,该报道援引消息人士称OpenAI正在抓取Google搜索结果以支持ChatGPT回复。消息人士称,OpenAI依赖Google来回答关于当前事件(如新闻或体育)的ChatGPT提示。
技术分析与泄露路径
Manić帮助Packer解决了这个谜团的大部分。他发现奇怪查询出现在一个网站的GSC中,是因为该网站在Google搜索中针对"https://openai.com/index/chatgpt/"——一个附加在每个奇怪查询开头的ChatGPT URL——排名很高。
似乎Google将这个URL进行了分词处理,分解为"openai + index + chatgpt"的搜索关键词。因此,Parker和Manić提出,在GSC中使用这些关键词排名很高的网站很可能会遇到ChatGPT泄露,包括那些报道先前ChatGPT泄露的网站,当时[对话被索引在Google搜索结果中]。
使用他们的建议在GSC中查找查询,Ars能够验证类似的字符串。
"不要被混淆,这是一个新的、完全不同的ChatGPT失误,不同于让Google索引我们不希望他们索引的内容,"Packer写道。"更奇怪,尽管不那么严重。"
泄露机制分析
目前尚不清楚OpenAI具体修复了什么,但Packer和Manić对一种可能的泄露路径有理论。他们发现,访问每个奇怪查询开头的URL,ChatGPT用户会遇到一个似乎有问题的提示框,导致"该页面的URL被添加到提示中"。
他们解释说,问题似乎是:
通常,ChatGPT 5会在认为需要时选择进行网络搜索,对于需要专业知识或时效性的搜索,它更可能这样做。但这个有问题的提示框还包含查询参数'hints=search',使其基本上总是进行搜索:https://chatgpt.com/?hints=search&openaicom_referred=true&model=gpt-5
Packer的博客明确指出,显然有些搜索依赖Google,错误地将用户在提示框中说的"任何内容"发送到GSC,并在其前面添加了"https://openai.com/index/chatgpt/"文本。正如Packer解释的那样:"我们知道它必须抓取了这些,而不是使用API或某种私人连接——因为其他选项不会显示在GSC内部。"
这意味着"OpenAI将与Google搜索相关的任何提示与进行抓取的任何人共享,"Packer声称。"然后也与在搜索结果中显示的任何人的网站共享!哎呀。"
对Packer来说,过去两个月内,"所有使用Google搜索的ChatGPT提示"都有泄露的风险。
OpenAI的回应与遗留问题
OpenAI声称只有少量查询被泄露,但拒绝提供更精确的估计。因此,每周使用ChatGPT的7亿用户中有多少提示被路由到GSC仍不清楚。
OpenAI的回应让用户留下了"挥之不去的问题"。
在8月ChatGPT提示被发现出现在Google搜索索引中后,OpenAI澄清说用户点击了一个框使这些提示公开,OpenAI辩称这"足够清楚"。在用户明显感到被误导公开私人对话后,这家AI公司后来匆忙从Google的SERP中移除了这些对话。
Packer告诉Ars,这些泄露和GSC泄露之间的一个主要区别是,受先前丑闻影响的用户,至少在某种程度上,"必须主动分享"他们泄露的对话。在最近的情况下,"没有人点击分享"或有任何合理方式防止他们的对话被曝光。
"OpenAI是否走得如此之快,以至于没有考虑这对隐私的影响,或者他们只是不在乎?"Packer在他的博客中假设。
用户隐私的深层担忧
对一些用户来说——除非他们的提示可能包含识别信息,否则他们的身份不会在对话中链接——似乎没有任何方法可以从GSC中删除泄露的对话,这与先前的丑闻不同。
Packer和Manić对OpenAI的修复能在多大程度上阻止这个问题留下了"挥之不去的问题"。
Manić希望OpenAI可能会确认在https://chatgpt.com/上输入并触发Google搜索的提示是否也受到影响。但OpenAI没有跟进这个问题,也没有关于泄露规模更广泛的问题。对Manić来说,一个主要担忧是OpenAI的抓取可能正在导致Google Search Console中的"鳄鱼嘴",SEO研究人员标记的一个令人不安的趋势,这会导致展示次数激增但点击率下降。
OpenAI也没有澄清Packer最大的问题。他想知道公司的"修复"是否只是停止了OpenAI的"搜索查询路由,使得原始提示不再发送到Google搜索,或者他们是否完全停止抓取Google搜索获取数据?"
"我们仍然不知道是否是那个特定页面有这个bug,或者这真的非常普遍,"Packer告诉Ars。"在任何一种情况下,这都是严重的,并且只是表明OpenAI在隐私方面多么不谨慎地行事。"
数据隐私的更大图景
这一事件不仅关乎ChatGPT用户的个人隐私,也反映了整个AI行业数据收集实践的潜在问题。随着人工智能系统越来越依赖大规模数据训练和实时信息获取,用户数据的边界和使用权变得模糊不清。
OpenAI的案例表明,即使是行业领先的公司也可能在快速推进技术的同时,忽视了对用户隐私的基本保护。这种疏忽不仅可能导致法律和声誉风险,还可能侵蚀用户对AI技术的信任。
技术透明度与用户知情权
此次泄露事件凸显了AI公司在技术透明度方面的不足。用户有权知道他们的数据如何被收集、使用和共享,以及是否存在潜在的风险。然而,OpenAI的回应并未完全满足这一需求,留下了许多关键问题未得到解答。
在人工智能时代,技术公司需要建立更强大的数据治理框架,确保用户隐私得到充分保护,同时保持必要的透明度,让用户能够做出明智的选择。
行业影响与未来展望
这一事件可能对整个AI行业产生深远影响。监管机构可能会加强对AI数据收集实践的审查,制定更严格的隐私保护法规。同时,用户对AI系统的期望可能会提高,要求更高的隐私保护和数据安全标准。
对于OpenAI和其他AI公司来说,这是一个重新评估其数据策略的机会,将用户隐私置于技术发展的核心位置,而不是事后考虑的因素。
结语:隐私与创新的平衡
人工智能的快速发展带来了前所未有的机遇,但也伴随着隐私保护的挑战。此次ChatGPT泄露事件提醒我们,在追求技术创新的同时,必须尊重和保护用户的隐私权。只有在透明、负责任的基础上,AI技术才能真正获得用户的信任,实现可持续发展。











