案件背景:AI巨头与媒体巨头的法律对决
2025年11月,OpenAI与美国纽约地方法院之间的一场法律纠纷引发了全球对AI时代用户隐私保护的广泛关注。这场争议的核心是OpenAI被命令向《纽约时报》及其他新闻原告提供2000万份完整的ChatGPT用户聊天记录,以支持这些媒体公司对OpenAI涉嫌侵犯版权的诉讼。
OpenAI此前曾主动提出提供2000万份聊天记录作为回应《纽约时报》要求1.2亿份记录的替代方案,但现在这家AI公司认为,法院强制要求提供这些聊天记录的命令过于宽泛,可能严重侵犯用户隐私权。
OpenAI的核心论点:隐私权与数据保护的坚守
完整对话vs.单一问答
OpenAI在其提交给美国纽约南区地方法院的文件中强调,"有争议的日志是完整对话:2000万份样本中的每一份都代表用户与ChatGPT之间多个提示-输出对的完整交换"。公司辩称,"披露这些日志暴露私人信息的可能性要高得多,就像监听整个对话比监听5秒的对话片段会透露更多私人信息一样"。
OpenAI进一步指出,"超过99.99%的聊天与此案无关",并请求地方法院"撤销该命令,并命令新闻原告回应OpenAI确定相关日志的提议"。
行业先例与危险 precedent
OpenAI的法律团队在文件中强调:"OpenAI不知道有任何法院下令大规模生产如此规模个人信息的情况"。公司警告称,"这树立了一个危险的先例:它表明任何起诉AI公司的人都可以要求生产数千万条对话,而无需先缩小相关性范围。在其他情况下,法院不允许起诉谷歌的原告挖掘数千万Gmail用户的私人电子邮件,无论它们是否相关。对于生成式AI工具,情况也不应如此。"
OpenAI还特别指出,这些聊天记录与之前Concord Music Group诉Anthropic PBC一案中的记录有本质区别。在加州那起案件中,法官Susan van Keulen命令生产500万条记录,但那些记录只是提示-输出对,即单个用户提示后跟单个模型输出。相比之下,"本案中的日志是完整对话:2000万份样本中的每一份都代表用户与ChatGPT之间多个提示-输出对的完整交换",可能导致多达8000万个提示-输出对。
隐私保护措施与局限性
OpenAI在其网站上向用户发布的信息中解释,这2000万份聊天记录是从2022年12月至2024年11月期间ChatGPT对话的随机抽样,不包括企业客户的聊天记录。公司表示,这些聊天存储在一个受法律保护的系统中,"受到法律保留的保护,意味着除了满足法律义务外,无法访问或用于其他目的"。
OpenAI提出了一系列隐私保护方案,包括"在样本上进行有针对性的搜索(例如,搜索可能包含《纽约时报》文章文本的聊天,以便他们只收到与他们主张相关的对话)",以及"如何在该样本中使用ChatGPT的高级数据分类"。然而,公司表示,"这些方案被《纽约时报》拒绝"。
《纽约时报》的立场:证据获取与版权保护
案件核心与证据需求
《纽约时报》在11月13日提供给Ars Technica的声明中明确表示:"《纽约时报》对OpenAI和微软的诉讼是为了让这些公司为其窃取数百万受版权保护的作品以创造直接与《时报》竞争的产品负责"。公司指责OpenAI的博客文章"故意误导用户并遗漏事实",并强调"没有ChatGPT用户的隐私处于危险之中。法院命令OpenAI提供由OpenAI本身匿名的聊天样本,并在法律保护令下提供"。
《纽约时报》在10月30日提交的文件中指控OpenAI"拒绝提供其行为在本案中提出的数十亿模型输出中的甚至一小样本",违反了先前的协议。文件强调:"立即输出日志样本的生产对于保持在2026年2月26日的发现截止日期的轨道上是必不可少的。OpenAI代表原告对其模型输出的这个小子集运行搜索的提议,就像它不足够一样低效,无法让原告公平分析'真实世界'用户如何与此案核心产品互动。"
法律依据与先例引用
《纽约时报》引用了11月7日美国地方法官Ona Wang的裁决支持其立场。Wang法官引用了加州Concord Music Group诉Anthropic PBC一案,其中美国地方法官Susan van Keulen下令生产500万条记录。Wang法官写道:"OpenAI一直依赖van Keulen法官使用的样本量公式来支持其先前提出的对话数据采样方法,但未能解释为什么van Keulen法官随后命令在该案件中向原告生产整个500万条记录样本的指示在此不具指导性。"
法院裁决与双方反应
法官Ona Wang的裁决
11月7日,美国地方法官Ona Wang站在《纽约时报》一边,裁定OpenAI必须在2025年11月14日之前或完成去标识化过程后的7天内,向新闻原告提供2000万份去标识化的ChatGPT用户日志。Wang法官裁定,即使各方对是否必须完整提供日志存在激烈争议,生产仍应继续进行。
Wang法官在裁决中表示:"无论当事人是否已达成协议完整提供2000万份ChatGPT用户日志——当事人对此激烈争议——这种生产在这里是适当的。OpenAI未能解释其消费者的隐私权如何未能得到充分保护:(1)本多地区诉讼中现有的保护令,或(2)OpenAI对所有2000万份ChatGPT用户日志的详尽去标识化。"
OpenAI的异议与法律策略
OpenAI在11月13日的提交中反驳称,法院命令"没有承认OpenAI的宣誓证人声明,解释去标识化过程并非旨在移除非标识信息,但可能仍然是私有的,例如《华盛顿邮报》记者假设使用ChatGPT协助准备新闻文章"。
OpenAI强调,"被引用的Concord命令不是关于整个样本的大规模生产是否合适;而是关于Anthropic将如何执行已经同意的生产的机制"。公司辩称,"该命令的任何内容都不表明van Keulen法官会在OpenAI在本案中一直提出的隐私问题的情况下下令大规模生产"。
OpenAI表示,公司从未有机会解释为什么Concord案不应适用于本案,因为新闻原告在其动议中没有引用它。
用户隐私与AI伦理的深层思考
用户隐私与AI训练的矛盾
OpenAI与《纽约时报》的争议揭示了AI行业面临的一个核心矛盾:如何在利用用户数据改进AI模型的同时保护用户隐私。OpenAI在其网站声明中承认:"ChatGPT用户比 NYT 案有更多需要担心隐私的问题"。例如,ChatGPT对话已被发现出现在Google搜索结果中,以及开发者可以用来监控搜索流量的Google Search Console工具。
行业影响与未来展望
OpenAI在11月13日宣布,它计划开发"先进的安全功能,旨在保持您的数据私密,包括与ChatGPT消息的客户端加密"。这一声明表明,AI公司正在认识到用户隐私保护的重要性,并采取措施加强数据安全。
结论:AI时代的隐私保护新挑战
OpenAI与《纽约时报》之间的法律纠纷远不止是一个简单的版权诉讼案例,它反映了AI时代用户隐私保护面临的复杂挑战。随着AI技术越来越深入地融入日常生活,如何平衡技术创新、用户隐私保护和知识产权权益将成为行业、法律界和监管机构必须共同面对的重要议题。
这一案件的最终裁决可能为AI行业设定重要的先例,影响未来AI公司与用户、内容创作者之间的关系。无论法院最终如何裁决,这场争议都已经促使各方重新思考AI时代的数据伦理和隐私保护框架,为构建更加负责任和可持续的AI生态系统奠定了基础。











