风暴前夕:隐私与版权的激烈碰撞
2025年11月,一场可能重塑人工智能时代用户隐私保护规则的法律战正在激烈进行。OpenAI,这家引领全球AI浪潮的公司,正积极反击美国纽约南区地方法院的一项裁决,该裁决要求OpenAI向《纽约时报》及其他新闻原告提供2000万ChatGPT用户的完整聊天记录。
这一法律纠纷的核心矛盾在于:一方面是新闻机构对保护其版权内容的需求,另一方面是数百万普通用户对个人隐私的合理期望。OpenAI认为,法院的这一裁决开创了一个危险的先例,可能导致AI公司用户的私人对话被大规模暴露,而《纽约时报》则坚称这些数据对于证明其指控至关重要。

OpenAI的立场:完整对话的隐私风险
在最新提交给法院的文件中,OpenAI明确表达了其对这一裁决的担忧。公司强调,"这些有争议的记录是完整对话:2000万样本中的每条记录都代表用户与ChatGPT之间多个提示-输出对的完整交换。"
OpenAI进一步解释道:"披露这些记录暴露私人信息的可能性要大得多,就像窃听整个对话比窃听5秒的对话片段会揭示更多私人信息一样。"
这一观点得到了OpenAI用户的高度关注。公司在其网站上发布声明,直接告知用户:"《纽约时报》要求我们交出2000万条您的私人ChatGPT对话,目的是找出您使用ChatGPT试图绕过他们付费墙的例子。"
数据规模与隐私问题的关联
OpenAI指出,虽然之前曾主动提出提供2000万聊天记录作为对《纽约时报》要求1.2亿记录的回应,但现在法院要求完整提供这些记录的范围过于宽泛。
更令人担忧的是,OpenAI声称这些记录中"超过99.99%与本案无关"。这一比例暗示,绝大多数用户的私人对话将与《纽约时报》的版权诉讼无关,却仍然面临被审查的风险。
OpenAI还强调,与之前案例中只处理单个提示-输出对不同,此次涉及的聊天记录包含完整对话,可能导致多达8000万个提示-输出对被审查,这无疑大大增加了隐私泄露的风险。
《纽约时报》的立场:版权保护的必要性
面对OpenAI的反击,《纽约时报》也发表了强硬声明。公司表示:"《纽约时报》对OpenAI和微软的诉讼是为了让这些公司为其窃取数百万受版权保护作品以创建直接与《时报》竞争的产品负责。"
《纽约时报》指责OpenAI的博客"故意误导用户并隐瞒事实",并强调:"没有任何ChatGPT用户的隐私处于风险之中。法院命令OpenAI在法律保护令下自行匿名化提供聊天记录样本。"
值得注意的是,《纽约时报》还援引了OpenAI自己的服务条款,指出"OpenAI自己的服务条款允许公司使用用户的聊天记录训练模型,并在诉讼中交出聊天记录。"
法律先例的建立:AI时代的隐私保护
这场法律战的一个重要方面是它可能为AI时代的用户隐私保护设立先例。OpenAI在其法庭文件中指出:"OpenAI不知道有任何法院曾下令如此大规模地提供个人信息。这开创了一个危险的先例:它暗示任何起诉AI公司的人都可以在未首先确定相关性的情况下,要求提供数千万条对话记录。"
OpenAI进一步解释:"在其他案件中,法院不允许起诉谷歌的原告挖掘数千万Gmail用户的私人电子邮件,无论其相关性如何。生成式AI工具的发现程序也不应该这样运作。"
法官的裁决与依据
美国地方法官Ona Wang在11月7日的裁决中支持了《纽约时报》的立场,命令OpenAI必须在11月14日或完成去识别化过程后的7天内,向新闻原告提供2000万去识别化的ChatGPT用户聊天记录。
Wang法官裁定,即使双方就是否必须完整提供记录存在激烈争议,生产仍应继续。她指出,OpenAI未能解释其消费者的隐私权如何通过以下方式得到充分保护:(1)本次多地区诉讼中现有的保护令,或(2)OpenAI对全部2000万ChatGPT用户聊天记录的去识别化处理。
OpenAI对此回应称,法院命令"没有承认OpenAI的宣誓证人声明,该声明解释去识别化过程并非旨在移除非识别性信息,但可能仍然是私人的信息,例如《华盛顿邮报》记者假设使用ChatGPT协助准备新闻文章。"
技术与法律的交叉点:去识别化的局限性
这场法律战还揭示了技术解决方案(如数据去识别化)在保护隐私方面的局限性。OpenAI强调,其去识别化过程并非旨在移除非识别性但可能仍然是私人的信息。
例如,一位记者使用ChatGPT协助准备新闻文章的对话可能不包含可直接识别个人身份的信息,但内容本身可能属于敏感的工作信息,不应被公开。
OpenAI表示,已经向《纽约时报》提出了几种隐私保护方案,包括在样本中进行针对性搜索(例如,搜索可能包含《纽约时报》文章文本的对话,以便他们只收到与主张相关的对话),以及对样本中ChatGPT使用方式进行高级数据分类。然而,这些方案被《纽约时报》拒绝。
数据存储与法律保护
OpenAI解释说,这2000万条聊天记录是从2022年12月至2024年11月的ChatGPT对话中随机抽取的样本,不包括商业客户的聊天记录。
这些聊天记录存储在一个"受法律保护的系统中,意味着它只能被访问或用于满足法律义务的目的"。OpenAI强调,《纽约时报》"目前有法律义务不在法院程序外公开任何数据",并表示将对抗任何试图使用户对话公开化的尝试。
案例比较:Concord Music Group v. Anthropic PBC
在11月7日的裁决中,Wang法官引用了加利福尼亚州的一个案例——Concord Music Group, Inc. v. Anthropic PBC,在该案中,美国地方法官Susan van Keulen下令生产500万条记录。
OpenAI在其今天的文件中指出,公司一直依赖van Keulen使用的样本量公式来支持其之前提出的对话数据采样方法,但未能解释为什么法官van Keulen在该案中指示向原告提供整个500万条记录样本的指令在这里同样具有指导意义。
OpenAI回应说,公司从未有机会解释为什么Concord案不应适用于本案,因为新闻原告在其动议中没有引用该案例。
更重要的是,OpenAI强调,"引用的Concord命令不是关于是否应完整提供样本,而是关于Anthropic将如何执行已经达成的生产"。"该命令没有任何迹象表明,如果Anthropic在本案中提出OpenAI一直提出的隐私问题,法官van Keulen会下令完整生产。"
此外,OpenAI指出,Concord记录只是提示-输出对,即单个用户提示后跟单个模型输出,而"此处有争议的记录是完整对话:2000万样本中的每条记录代表用户与ChatGPT之间多个提示-输出对的完整交换。"
用户隐私的更大担忧
值得注意的是,ChatGPT用户对隐私的担忧不仅仅限于《纽约时报》的案件。例如,ChatGPT对话已被发现出现在Google搜索结果中,以及开发者可以用来监控搜索流量的Google Search Console工具中。
OpenAI今天表示,它计划开发"旨在保持您数据私密的高级安全功能,包括您与ChatGPT消息的客户端加密"。
未来影响:AI时代隐私保护的新框架
这场法律战的结果可能对AI时代的隐私保护产生深远影响。如果法院支持《纽约时报》,可能会为AI公司用户数据的大规模披露开创先例;如果支持OpenAI,则可能为AI工具的用户隐私提供更强有力的保护。
无论如何,这场纠纷凸显了在快速发展的AI领域,法律框架与技术发展之间存在的差距。随着AI工具越来越深入地融入人们的日常生活,如何平衡创新、版权保护和用户隐私将成为政策制定者和法院面临的关键挑战。
结语:隐私与创新的平衡
OpenAI与《纽约时报》之间的法律纠纷远不止是两家公司之间的商业争端,它代表了数字时代一个根本性的问题:如何在促进创新的同时保护个人隐私。
随着AI技术继续发展,类似的法律挑战可能会变得更加普遍。这场案件的结果可能为未来的AI监管和隐私保护设定重要先例,影响数百万用户的数字权利和期望。
无论最终裁决如何,这场纠纷已经促使科技公司、新闻机构和用户重新思考AI时代的数据使用和隐私保护。在一个数据被视为新石油的时代,确保个人隐私不被侵犯,同时允许创新蓬勃发展,将是政策制定者、技术开发者和法院面临的持续挑战。









