在人工智能技术飞速发展的今天,用户数据隐私与知识产权保护之间的界限正变得越来越模糊。OpenAI近期正积极寻求法院推翻一项裁决,要求向《纽约时报》等新闻原告提供2000万份完整的ChatGPT用户聊天记录。这一法律纠纷引发了关于人工智能公司用户数据隐私与版权保护之间界限的深刻讨论。
法院命令与OpenAI的反击
OpenAI在提交给美国纽约南区地方法院的文件中表示,法院要求提供的聊天记录是"完整的对话",每份记录代表用户与ChatGPT之间的多个提示-输出对交换。公司辩称,披露这些完整对话比提供单个提示-输出片段更有可能暴露私人信息,正如窃听整个对话比只听5秒的对话片段会揭示更多私人信息一样。
"这些记录中超过99.99%与本案无关,"OpenAI在文件中强调。公司要求法院撤销该命令,并要求新闻原告回应其识别相关日志的提议。OpenAI还可能寻求联邦上诉法院的审查。
OpenAI还在其官网上向用户发布了一条信息,称《纽约时报》正要求公司"交出2000万份您的私人ChatGPT对话",目的是"找到您使用ChatGPT试图绕过其付费墙的例子"。
隐私保护的法律先例之争
OpenAI的法庭文件主张,聊天记录的生产应根据其与案件的相关性进行缩小。
"OpenAI不知道有任何法院下令大规模生产如此规模的个人信息,"文件表示,"这树立了一个危险的先例:它暗示任何起诉AI公司的人都可以要求生产数千万条对话,而无需首先缩小相关性范围。在其他案件中,法院不允许起诉谷歌的原告挖掘数千万Gmail用户的私人电子邮件,无论其相关性如何。生成式AI工具的发现程序也不应如此运作。"
然而,美国地方法官Ona Wang在11月7日的一份命令中支持了《纽约时报》的立场,裁定OpenAI必须在11月14日前向新闻原告提供2000万份去标识化的消费者ChatGPT日志,或在完成去标识化过程后的7天内提供。Wang法官裁定,即使双方对是否必须完整提供日志存在争议,生产仍应继续进行。
OpenAI在今天的文件中指出,法院命令没有承认OpenAI的宣誓证人声明,该声明解释去标识化过程并非旨在移除非标识但可能仍然是私有的信息,例如《华盛顿邮报》记者假设使用ChatGPT协助准备新闻文章的情况。
《纽约时报》的回应
在联系Ars Technica后,《纽约时报》今日发表声明:"《纽约时报》对OpenAI和微软的诉讼是为了让这些公司为其窃取数百万受版权保护的作品以创造直接与《时报》竞争的产品负责。在另一种掩盖其非法行为的尝试中,OpenAI的博客文章故意误导用户并隐瞒事实。没有ChatGPT用户的隐私处于风险之中。法院命令OpenAI提供聊天样本,由OpenAI本身匿名化,并在法律保护令下进行。考虑到OpenAI自己的服务条款允许公司使用用户的聊天记录训练其模型并在诉讼中交出聊天记录,这种恐慌 mongering 更加不诚实。"
聊天记录的法律保存
根据OpenAI网站上的信息,这2000万份聊天记录包含从2022年12月至2024年11月期间ChatGPT对话的随机抽样,不包括商业客户的聊天记录。
"我们向《时报》提出了几种保护隐私的选项,包括对样本进行有针对性的搜索(例如,搜索可能包含《纽约时报》文章文本的聊天记录,以便他们只收到与主张相关的对话),以及对样本中ChatGPT使用方式的高级数据分类。这些都被《时报》拒绝了,"OpenAI表示。
OpenAI称,这些聊天记录存储在一个受法律保护的系统中,"在法律保存下受到保护,意味着它不能被访问或用于满足法律义务以外的目的"。《纽约时报》"目前有法律义务不在法庭程序外公开任何数据",OpenAI表示将对抗任何试图使用户对话公开的行为。
发现程序的效率之争
在10月30日提交的一份文件中,《纽约时报》指控OpenAI违反先前的协议,"拒绝提供甚至少量其行为在本案中已提出的数十亿模型输出"。文件继续写道:
立即提供输出日志样本对于保持在2026年2月26日的发现截止日期上至关重要。OpenAI代表原告在这个小规模模型输出子集上运行搜索的提议,正如其不足够一样低效,无法让原告公平分析'真实世界'用户如何与此诉讼核心产品互动。没有模型输出本身的访问权限,原告无法合理进行专家分析,了解OpenAI的模型在其核心面向消费者的产品中如何运作,检索增强生成('RAG')如何传递新闻内容,消费者如何与该产品互动,以及幻觉发生的频率。
OpenAI表示,《纽约时报》的发现请求最初仅限于"与《时报》内容相关的日志",并且公司一直在通过抽样对话日志来满足这些请求。在该过程结束时,新闻原告提交了一份新动议:要求OpenAI不是查找和提供"与《时报》内容相关的日志",而是通过硬盘驱动器提供整个2000万日志样本。
法官推理的争议
11月7日的命令引用了加利福尼亚州的一个案例,Concord Music Group, Inc. v. Anthropic PBC,在该案中,美国地方法官Susan van Keulen下令生产500万条记录。OpenAI一直依赖van Keulen使用的样本量公式来支持其先前提出的对话数据抽样方法,但Wang法官写道,OpenAI未能解释为什么van Keulen随后的命令指示在该案件中向原告提供整个500万条记录样本,在这里不应具有类似的指导意义。
OpenAI在今天的文件中表示,公司从未有机会解释为什么Concord案不应适用于本案,因为新闻原告在他们的动议中没有引用它。
"引用的Concord命令不是关于整个样本的生产是否适当;而是关于Anthropic将如何执行已经同意的生产,"OpenAI写道,"该命令的任何内容都不表明,如果Anthropic提出OpenAI在本案中一直提出的隐私问题,van Keulen法官会下令整个样本的生产。"
OpenAI指出,Concord记录只是提示-输出对,即单个用户提示后跟单个模型输出,而"这里的记录是完整的对话":2000万样本中的每条记录代表用户与ChatGPT之间的多个提示-输出对交换。这可能产生"多达8000万提示-输出对",OpenAI表示。
用户隐私的更广泛担忧
除了《纽约时报》的案例外,担心隐私的ChatGPT用户还有更多担忧。例如,ChatGPT对话已被发现在Google搜索结果中,以及开发人员可用于监控搜索流量的Google Search Console工具中。OpenAI今天表示,它计划开发"旨在保持您数据私密的高级安全功能,包括与ChatGPT消息的客户端加密"。
这场法律纠纷不仅关乎OpenAI和《纽约时报》的商业利益,更可能为未来AI公司与内容创作者之间的法律关系设定重要先例。随着人工智能技术的不断发展和应用范围的扩大,如何在保护用户隐私的同时尊重知识产权,将成为科技行业、法律界和政策制定者必须共同面对的挑战。
技术与法律的平衡
在数字时代,技术创新与法律框架之间的平衡变得越来越重要。OpenAI的案例突显了当技术发展速度超过法律适应速度时可能产生的冲突。一方面,内容创作者如《纽约时报》有权保护其知识产权;另一方面,用户有权期望其私人对话得到保护。
法院在处理此类案件时需要考虑多重因素:技术可行性、隐私保护的有效性、发现程序的效率以及相关性的确定。OpenAI提出的担忧——即完整对话可能包含与案件无关的敏感信息——值得认真对待,但同时也需要确保原告能够获得足够证据来支持其主张。
未来影响
无论最终结果如何,这一案件都将对未来AI行业产生深远影响。如果法院支持OpenAI的立场,可能会为AI公司提供更强的用户隐私保护,但也可能使内容创作者更难证明版权侵权。相反,如果法院支持《纽约时报》的立场,可能会强化内容创作者的权利,但也可能增加AI公司的合规成本和用户隐私风险。
随着人工智能技术的持续发展,类似的法律纠纷可能会变得更加常见。这促使我们思考:如何建立既能保护用户隐私又能尊重知识产权的法律框架?如何在促进技术创新的同时确保公平竞争?这些问题需要科技行业、法律界、政策制定者和公众共同参与讨论和解决。
结论
OpenAI与《纽约时报》之间的法律纠纷反映了人工智能时代面临的复杂挑战。在追求技术创新和保护知识产权之间找到平衡点,将是未来法律和政策制定的关键任务。这一案件的结果不仅将影响两家公司的命运,更可能为整个AI行业的发展方向设定重要先例。随着技术的不断进步,我们需要不断更新法律框架,确保它们能够适应新的现实,同时保护各方合法权益。









