OpenAI反击法院命令:2000万用户聊天记录隐私保卫战

0

OpenAI正积极反抗法院命令,要求向《纽约时报》和其他新闻原告提供2000万份完整的ChatGPT用户聊天记录。这一法律纠纷不仅涉及两家巨头公司的商业利益,更触及人工智能时代用户隐私保护的核心问题。

案件背景:从1200万到2000万的争议

这场法律纠纷始于《纽约时报》对OpenAI和微软提起的版权诉讼,指控这些公司"窃取"数百万受版权保护的作品来创建与《时报》直接竞争的产品。作为回应,OpenAI最初提供了2000万份聊天记录作为对《纽约时报》要求1.2亿份聊天记录的反提议。

然而,美国纽约南区地方法院法官Ona Wang在11月7日的裁决中支持了《纽约时报》,命令OpenAI必须在2025年11月14日之前或完成去标识化处理后的7天内,向新闻原告提供这2000万份去标识化的ChatGPT用户聊天记录。

OpenAI在今日提交的法庭文件中坚决反对这一命令,认为其范围过于广泛,可能导致用户隐私受到严重侵犯。

OpenAI的核心论点:隐私权优先

OpenAI在法庭文件中强调,这些聊天记录是"完整的对话",每份记录代表用户与ChatGPT之间多次提示-输出对的完整交流。

"披露这些日志很可能暴露私人信息,就像窃听整个对话比窃听5秒的对话片段会揭示更多私人信息一样,"OpenAI在文件中写道。

更关键的是,OpenAI声称"超过99.99%"的聊天记录"与此案无关"。公司要求地方法院"撤销该命令,并命令新闻原告回应OpenAI识别相关日志的提议"。

法律先例与行业影响

OpenAI的论点基于一个重要法律原则:AI聊天记录应被视为私人电子邮件。

"OpenAI不知道有任何法院曾下令大规模生产如此规模的个人信息,"文件中写道,"这树立了一个危险的先例:它表明任何起诉AI公司的人都可以要求生产数千万条对话,而无需首先缩小相关性范围。"

OpenAI进一步指出,在其他类型的案件中,法院不允许起诉谷歌的原告挖掘数千万Gmail用户的私人电子邮件,无论其相关性如何。生成式AI工具也不应该有不同对待。

《纽约时报》的反驳

《纽约时报》在回应Ars Technica的声明中表示,OpenAI的博客文章"故意误导用户并遗漏事实"。

"《纽约时报》对OpenAI和微软的案件是要求这些公司为其窃取数百万受版权保护的作品以创建与《时报》直接竞争的产品负责,"该公司声明说,"在试图掩盖其非法行为的又一次尝试中,OpenAI的博客文章故意误导其用户并遗漏事实。没有ChatGPT用户的隐私处于危险之中。法院命令OpenAI在法律保护令下提供聊天记录样本,由OpenAI自己匿名化处理。考虑到OpenAI自己的服务条款允许公司使用用户的聊天记录训练模型并在诉讼中交出聊天记录,这种恐吓行为更加不诚实。"

技术与隐私保护的平衡

OpenAI今日在其网站上向用户发布了一条消息,表示《纽约时报》要求公司"交出2000万份您的私人ChatGPT对话",目的是"找到您使用ChatGPT试图绕过他们付费墙的例子"。

对于担心隐私的ChatGPT用户来说,除了《纽约时报》的案件外,还有其他值得关注的问题。例如,ChatGPT对话已被发现出现在Google搜索结果中,以及开发者可以用来监控搜索流量的Google Search Console工具。

OpenAI今日表示,它计划开发"旨在保持您数据私密的高级安全功能,包括与ChatGPT消息的客户端加密"。

数据存储与法律保护

OpenAI解释说,这2000万份聊天记录包括从2022年12月至2024年11月期间ChatGPT对话的随机抽样,不包括商业客户的聊天记录。

"我们向《纽约时报》提供了几种隐私保护选项,包括在样本上进行有针对性的搜索(例如,搜索可能包含《纽约时报》文章文本的聊天,以便他们只收到与他们主张相关的对话),以及对样本中ChatGPT使用方式的高级数据分类。这些都被《纽约时报"拒绝,"OpenAI表示。

这些聊天存储在一个"受法律保护的安全系统中","受到法律保留的保护,意味着它不能被访问或用于满足法律义务以外的目的"。OpenAI表示,《纽约时报》"目前有法律责任不在法庭程序外公开任何数据",公司将对抗任何使用户对话公开的尝试。

法院裁决的争议点

11月7日的命令引用了加利福尼亚州的一个案件Concord Music Group, Inc. v. Anthropic PBC,在该案中,美国地方法院法官Susan van Keulen命令生产500万条记录。Wang法官写道,OpenAI一直依赖van Keulen使用的样本量公式"为其之前的对话数据采样提议方法提供支持,但未能解释为什么[van] Keulen法官随后命令在该案件中向原告提供整个500万条记录样本的指示不同样适用于此案。"

然而,OpenAI今日提交的文件称,公司从未有机会解释为什么Concord案不应适用于本案,因为新闻原告在动议中没有引用它。

"引用的Concord命令不是关于整个样本的生产是否适当;而是关于Anthropic将如何执行已经达成的生产,"OpenAI写道,"该命令没有任何迹象表明,如果Anthropic在本案中提出OpenAI一直提出的隐私问题,Judge van Keulen也会下令进行大规模生产。"

此外,OpenAI指出,Concord记录只是提示-输出对,即"单个用户提示后跟单个模型输出",而"这里的记录是完整对话:2000万样本中的每条记录代表用户与ChatGPT之间多次提示-输出对的完整交流"。这可能导致"多达8000万提示-输出对",OpenAI说。

行业影响与未来展望

这一案件可能对整个AI行业产生深远影响。如果法院支持《纽约时报》的立场,可能会为AI公司设定一个危险的先例,即用户数据可以在诉讼中被大规模获取,无论其相关性如何。

反之,如果OpenAI成功保护用户隐私,可能会推动行业更严格的数据保护标准和更透明的用户数据处理政策。

无论结果如何,这一案件都凸显了AI时代一个核心挑战:如何在促进创新、保护版权和尊重用户隐私之间取得平衡。

用户应了解的权利

对于ChatGPT用户来说,这一案件提醒他们了解自己数据的使用和保护方式。OpenAI的服务条款确实允许公司使用用户聊天记录训练模型并在诉讼中提供这些记录。

随着AI技术的普及,用户越来越需要了解自己的数据权利,并选择那些优先保护隐私的平台和服务。

OpenAI正计划开发的新安全功能,包括客户端加密,可能为行业树立新标准,但用户仍需谨慎对待在AI平台上分享的敏感信息。