OpenAI反击法院命令:拒绝交出2000万用户聊天记录

0

在人工智能技术快速发展的今天,用户数据隐私保护已成为行业面临的重大挑战。OpenAI最近采取法律行动,要求美国纽约南区联邦地方法院推翻一项裁决,强制该公司向《纽约时报》等新闻原告公司交出2000万ChatGPT用户的完整聊天记录。这一法律纠纷不仅关乎两家公司的商业利益,更触及了AI时代用户隐私保护的根本问题。

事件背景:从版权诉讼到数据隐私争议

这场法律纠纷始于2025年,当时《纽约时报》联合多家新闻机构起诉OpenAI和微软,指控其未经许可使用数百万受版权保护的作品训练AI模型,并开发出与这些新闻机构直接竞争的产品。作为回应,OpenAI最初提出提供2000万用户聊天记录作为证据,以回应《纽约时报》要求提供1.2亿条记录的请求。

然而,事情在2025年11月7日出现转折。美国地方法官Ona Wang发布命令,要求OpenAI必须在2025年11月14日前或完成去标识化处理后7天内,向新闻原告提供这2000万条去标识化的ChatGPT用户聊天记录。这一裁决引发了OpenAI的强烈反对,并促使其采取法律行动寻求推翻该命令。

OpenAI的核心论点:隐私保护与法律先例

OpenAI在其法庭文件中提出了多项关键论点,强调强制交出完整聊天记录将对用户隐私构成严重威胁。

完整对话与片段信息的差异

OpenAI强调,法院命令要求的不仅是单个提示-输出对,而是"完整对话":每条记录代表用户与ChatGPT之间多次提示-输出对的完整交换。正如OpenAI在文件中所指出的:

"这些记录涉及的是完整对话:2000万样本中的每条记录都代表用户与ChatGPT之间多次提示-输出对的完整交换。因此,披露这些记录比披露单个提示-输出对更有可能暴露私人信息,就像窃听整个对话比窃听5秒对话片段会揭示更多私人信息一样。"

数据相关性问题

OpenAI进一步指出,这些聊天记录中"超过99.99%"的内容与案件无关。公司要求地方法院"撤销该命令,并命令新闻原告回应OpenAI关于识别相关记录的提议"。这一论点反映了法律程序中相关性原则的重要性——在发现过程中,通常只要求提供与案件直接相关的信息,而非大规模的数据集。

危险的法律先例

OpenAI在文件中警告说:

"OpenAI不知道有任何法院曾下令以这种规模批量提供个人信息。这树立了一个危险的先例:它暗示任何起诉AI公司的人都可以要求提供数千万条对话记录,而无需先考虑相关性。在其他案件中,法院不允许起诉谷歌的原告挖掘数千万Gmail用户的私人电子邮件,无论其相关性如何。对于生成式AI工具,发现程序也不应如此运作。"

法院的立场:去标识化与保护措施

尽管OpenAI提出了强烈反对,美国地方法官Ona Wang在11月7日的裁决中仍然支持《纽约时报》的立场。Wang法官认为,即使各方未就完整提供记录达成一致,这种提供仍然是适当的。

Wang法官在裁决中写道:

无论各方是否已同意完整提供2000万条消费者ChatGPT日志——对此各方存在激烈争议——在此情况下提供这些记录是适当的。OpenAI未能解释其消费者的隐私权如何未能通过以下方式得到充分保护:(1)本次多地区诉讼中现有的保护令,或(2)OpenAI对所有2000万条消费者ChatGPT日志的彻底去标识化。

《纽约时报》的回应:责任与透明度

针对OpenAI的指控,《纽约时报》在联系Ars Technica后发表声明:

《纽约时报》对OpenAI和微软的诉讼是要求这些公司为其窃取数百万受版权保护的作品以创建直接与《时报》竞争的产品承担责任。OpenAI的博客文章试图掩盖其非法行为,故意误导用户并 omitting the facts。没有任何ChatGPT用户的隐私处于风险之中。法院命令OpenAI在法律保护令下提供聊天样本样本,并由OpenAI本身匿名化。考虑到OpenAI自己的服务条款允许公司使用用户的聊天训练其模型并在诉讼中转交聊天记录,这种恐惧 mongering 更加不诚实。

技术与隐私保护的平衡

这场法律纠纷凸显了AI技术与用户隐私保护之间的紧张关系。OpenAI在11月13日发布在其网站上的用户信息中宣布,计划开发"旨在保持数据私密的高级安全功能,包括与ChatGPT消息的客户端加密"。

聊天记录泄露的历史案例

值得注意的是,ChatGPT用户的隐私担忧不仅限于当前的法律纠纷。此前,ChatGPT对话已被发现在Google搜索结果中出现,开发者可用来监控搜索流量的Google Search Console工具中也发现了尴尬的聊天记录。这些事件进一步加剧了用户对AI平台数据安全的担忧。

法律保留下的数据存储

OpenAI解释说,这2000万条聊天记录是从2022年12月至2024年11月期间ChatGPT对话的随机样本,不包括商业客户的聊天记录。这些聊天存储在一个"受法律保留保护的系统中,意味着它只能用于满足法律义务,而不能用于其他目的访问或使用"。

OpenAI还表示,《纽约时报》"目前有法律责任不在法院程序外公开任何数据",并且公司将"努力阻止任何试图公开用户对话的行为"。

法律策略与先例引用

OpenAI在其最新法律文件中质疑法院引用的先例——加州的Concord Music Group, Inc. v. Anthropic PBC案。在该案中,美国地方法官Susan van Keulen下令生产500万条记录。

OpenAI声称,公司一直依赖van Keulen使用的样本量公式来支持其之前提出的对话数据采样方法,但未能解释为什么van Keulen在该案中直接要求向原告提供整个500万条记录样本的命令在这里同样具有指导意义。

OpenAI辩称,被引用的Concord记录只是提示-输出对,即"单个用户提示后跟单个模型输出",而"这里的记录是完整对话:2000万样本中的每条记录代表用户与ChatGPT之间多次提示-输出对的完整交换",这可能导致"多达8000万提示-输出对"。

行业影响与未来展望

这场法律纠纷对AI行业产生了深远影响,特别是在数据使用和隐私保护方面。

AI训练数据的法律边界

案件的核心问题之一是AI公司如何合法获取训练数据。目前,AI公司通常使用大量网络文本数据训练模型,但这些数据的使用边界尚不明确。本案可能为行业树立重要先例,界定AI公司在使用受版权保护材料时的法律义务。

用户数据的法律地位

另一个关键问题是用户与AI平台之间的聊天记录在法律上应被视为何种性质。OpenAI主张这些对话应被视为私人电子邮件,享有高度隐私保护;而新闻机构则认为这些数据是其诉讼过程中的合法证据。这一争议将影响未来AI平台的数据处理政策和用户隐私保护标准。

行业自律与监管趋势

无论本案结果如何,AI行业正面临越来越严格的监管审查。全球各地的监管机构正在制定针对AI数据使用的规则,要求更高的透明度和用户控制权。OpenAI在这场诉讼中的立场可能影响行业自律的方向和速度。

结论:隐私与创新的平衡

OpenAI与《纽约时报》之间的法律纠纷反映了AI时代的一个核心挑战:如何在推动技术创新的同时保护用户隐私和数据安全。无论法院最终如何裁决,这一案件都将对AI行业的未来发展产生深远影响。

随着AI技术越来越深入地融入日常生活,用户数据隐私保护将成为行业可持续发展的关键因素。AI公司需要在数据收集、使用和保护之间找到平衡点,既要满足法律要求,又要赢得用户信任。同时,监管机构也需要制定合理的规则,既保护用户权益,又不阻碍创新。

这场法律纠纷提醒我们,在AI技术快速发展的今天,隐私保护不应被视为创新的障碍,而应被视为创新过程中不可或缺的一部分。只有尊重用户隐私,AI技术才能真正实现其改变世界的潜力。