在人工智能技术迅猛发展的今天,一场关于用户隐私、数据权利和AI伦理的法律战正在激烈上演。OpenAI,这家开发出ChatGPT的AI巨头,正与美国地方法院抗争,试图推翻一项裁决,该裁决要求这家ChatGPT制造商向《纽约时报》及其他新闻原告提供2000万条用户聊天记录,以应对 alleged 版权侵权诉讼。这一事件不仅关乎两家公司的法律命运,更触及了AI时代用户隐私保护的根本问题。
事件背景:从版权争议到隐私危机
这场法律纠纷始于《纽约时报》对OpenAI和微软提起的诉讼,指控这些公司窃取了数百万受版权保护的作品来创建与《纽约时报》直接竞争的产品。然而,随着案件的发展,争议焦点已经从单纯的版权问题扩展到了用户隐私的更广泛领域。

OpenAI在11月13日向美国纽约南区地方法院提交的一份文件中指出,尽管此前曾主动提出提供2000万条聊天记录作为对《纽约时报》要求1.2亿条记录的反提案,但法院要求提供完整聊天记录的命令过于宽泛。OpenAI强调,这些聊天记录是"完整的对话",每条记录代表用户与ChatGPT之间的多次提示-输出交换,披露这些记录很可能暴露私人信息。
"这些日志在这里涉及的都是完整对话:2000万样本中的每条日志都代表用户与ChatGPT之间多次提示-输出对的完整交换,"OpenAI在法庭文件中表示。"因此,披露这些日志比单独的提示-输出对更有可能暴露私人信息,就像窃听整个对话比5秒的对话片段揭示更多私人信息一样。"
OpenAI的立场:隐私保护为先
OpenAI的核心论点是,法院命令要求提供如此大规模的私人聊天记录,超出了合理法律发现的范围,并可能开创一个危险的先例。
"OpenAI不知道有任何法院曾下令如此大规模地提供个人信息,"OpenAI的文件表示。"这设定了一个危险的先例:它表明任何对AI公司提起诉讼的人都可以要求提供数千万条对话,而无需首先缩小相关范围。在其他案例中,法律发现并非如此运作:法院不允许起诉谷歌的原告挖掘数千万Gmail用户的私人电子邮件,无论其相关性如何。对于生成式AI工具,法律发现也不应如此运作。"
OpenAI还指出,"超过99.99%"的聊天记录与此案无关,并要求地方法院"撤销该命令,并命令新闻原告回应OpenAI确定相关日志的提案。"OpenAI还可能在联邦上诉法院寻求审查。

《纽约时报》的反驳:合法发现程序
面对OpenAI的强烈反对,《纽约时报》也发表了强硬声明。该报表示,其针对OpenAI和微软的案件是"要求这些公司为其窃取数百万受版权保护作品以创建与《纽约时报》直接竞争产品的行为负责。"
"OpenAI的博客文章试图掩盖其非法行为,故意误导用户并忽略事实,"《纽约时报》在回应Ars Technica的声明中表示。"没有ChatGPT用户的隐私处于风险之中。法院命令OpenAI提供聊天记录样本,由OpenAI本身匿名化处理,并在法律保护令下进行。考虑到OpenAI自己的服务条款允许该公司在其用户的聊天记录上训练模型并在诉讼中交出聊天记录,这种恐吓行为更加不诚实。"
用户隐私的更广泛担忧
值得注意的是,ChatGPT用户对隐私的担忧不仅仅局限于《纽约时报》的案件。例如,ChatGPT对话已被发现在Google搜索结果中,以及开发人员可用于监控搜索流量的Google Search Console工具中。
OpenAI在11月13日表示,它计划开发"旨在保持您数据私密的高级安全功能,包括与ChatGPT消息的客户端加密。"
法律技术细节:从相关性到样本大小
这场法律纠纷涉及一些复杂的技术和法律细节,值得深入探讨。
法官的裁决
11月7日,美国地方法官Ona Wang发布了一项命令,支持《纽约时报》的立场,要求OpenAI在2025年11月14日之前或完成去识别过程后的7天内,向新闻原告提供2000万条去识别化的消费者ChatGPT日志。
Wang法官裁定,即使各方就是否必须完整提供日志未达成一致,生产仍应继续进行:
无论当事人是否已达成协议完整提供2000万条消费者ChatGPT日志——当事人对此激烈争议——这样的生产在这里是适当的。OpenAI未能解释其消费者的隐私权利如何不能通过以下方式得到充分保护:(1)本案多区诉讼中现有的保护令,或(2)OpenAI对全部2000万条消费者ChatGPT日志的去识别化。
OpenAI的反驳
OpenAI在11月13日的文件中表示,法院命令"没有承认OpenAI的宣誓证人声明,该声明解释去识别化过程并非旨在移除非识别但可能仍然是私有的信息,比如《华盛顿邮报》记者假设使用ChatGPT协助准备新闻文章。"
OpenAI还引用了加利福尼亚州的一个案例——Concord Music Group, Inc. v. Anthropic PBC,在该案中,美国地方法官Susan van Keulen下令生产500万条记录。OpenAI在文件中表示,它从未有机会解释为什么Concord案不应适用于本案,因为新闻原告在其动议中没有引用该案。
"引用的Concord命令并非关于是否应完整提供样本;而是关于Anthropic将如何执行已商定的生产,"OpenAI写道。"该命令的任何内容都不表明,如果Anthropic在本案中提出OpenAI一直提出的隐私问题,法官van Keulen会下令完整提供样本。"
聊天记录的性质与范围
OpenAI指出,Concord案中的日志只是提示-输出对,即"单个用户提示后跟单个模型输出",而"这里涉及的日志是完整对话:2000万样本中的每条日志代表用户与ChatGPT之间多次提示-输出对的完整交换。"这可能导致"多达8000万条提示-输出对,"OpenAI表示。
这些聊天记录包括2022年12月至2024年11月期间ChatGPT对话的随机样本,不包括商业客户的聊天记录,OpenAI在其网站上的一则消息中表示。
"我们向《纽约时报》提供了几种隐私保护选项,包括在样本上进行有针对性的搜索(例如,搜索可能包含《纽约时报》文章文本的聊天,以便他们只接收与其主张相关的对话),以及如何在该样本中使用ChatGPT的高级数据分类,"OpenAI表示。"这些都被《纽约时报"拒绝了。"
数据安全与法律义务
OpenAI强调,这些聊天记录存储在一个"受法律保护的安全系统中","受法律保护,意味着除了满足法律义务外,无法访问或用于其他目的。"
《纽约时报》"目前有法律责任不在法院程序外公开任何数据,"OpenAI表示,并表示将反对任何试图使用户对话公开的尝试。
发现程序的效率与公平性
《纽约时报》在10月30日的一份文件中指控OpenAI拒绝先前的协议,"拒绝生产数十亿条模型输出中的哪怕一小部分,这些输出是其行为在本案中引发的争议。"
该文件继续指出:
立即提供输出日志样本对于保持在2026年2月26日发现期限的轨道上至关重要。OpenAI代表原告在其部分模型输出上运行搜索的提议,既低效又不足以允许原告公平分析'真实世界'用户如何与此案核心产品互动。如果没有模型输出本身的访问权限,原告无法合理进行专家分析,了解OpenAI的模型如何在其核心面向消费者的产品中运行,检索增强生成('RAG')如何传递新闻内容,消费者如何与该产品互动,以及幻觉发生的频率。
行业影响与未来展望
这场法律纠纷的潜在影响远超OpenAI和《纽约时报》之间的争议。它可能为AI公司与内容创作者之间的法律关系设定先例,同时也可能影响用户对其AI对话隐私的期望。
对AI行业的启示
如果法院维持其命令,可能会鼓励更多内容创作者通过法律手段获取AI公司的用户数据,以证明其主张。这可能迫使AI公司重新考虑其数据收集和使用政策。
对用户隐私的影响
无论结果如何,这一案件已经提高了用户对其AI对话隐私的认识。OpenAI承诺开发更强大的安全功能,如客户端加密,这可能成为行业标准。
对法律发现的重新思考
这一案件也引发了关于法律发现在数字时代应如何运作的更广泛问题。随着AI系统生成越来越多的数据,法院需要平衡各方利益,确保公平的法律程序,同时保护个人隐私。
结论:在创新与隐私之间寻找平衡
OpenAI与《纽约时报》之间的这场法律纠纷反映了AI时代面临的核心挑战:如何在促进技术创新的同时保护用户隐私和权利。
无论法院最终如何裁决,这一案件都将对AI行业产生深远影响。它可能促使AI公司采取更严格的数据保护措施,也可能促使立法者考虑新的法规,以平衡AI创新与隐私保护。
对于用户而言,这一案件是一个提醒:在使用AI服务时,应了解自己的数据如何被使用,并考虑对话的敏感性。同时,它也是一个机会,让所有利益相关者参与讨论如何构建一个既创新又尊重隐私的AI未来。









