OpenAI删除盗版书籍数据集背后的法律博弈：AI版权争议的关键转折点

在人工智能技术迅猛发展的今天，OpenAI作为行业领军企业，正面临一场可能重塑AI训练数据使用规则的法律挑战。这家开发ChatGPT的公司因删除包含盗版书籍的数据集而陷入争议，法院已裁定其必须公开解释删除动机。这一案件不仅关乎OpenAI的存亡，更可能为整个AI行业设定版权使用的法律边界。

数据集删除：争议的核心

案件的核心是OpenAI在2022年ChatGPT发布前删除的两个数据集——"Books 1"和"Books 2"。这些数据集由前OpenAI员工于2021年创建，通过抓取开放网络构建，主要数据来源于一个名为Library Genesis(LibGen)的影子图书馆。

OpenAI最初声称这些数据集在创建当年就已停止使用，因此被删除。然而，在作者提起的集体诉讼中，这一说法显得可疑。原告律师怀疑OpenAI删除数据集是为了掩盖其使用盗版材料训练AI模型的事实。

更引人注目的是，OpenAI在此案中表现出的前后矛盾。法院记录显示，OpenAI先是撤回"非使用"是删除数据集的理由的说法，随后又声称所有删除理由，包括"非使用"，都应受律师-客户特权保护。这种"翻滚"行为引起了法院的注意。

美国地方法官Ona Wang对OpenAI的特权主张提出了严厉批评。在2025年12月的裁决中，Wang法官指出OpenAI在"非使用"是否构成删除理由的问题上"来回摇摆"。

"OpenAI不能先说'非使用'不是删除的理由(这意味着它不受特权保护)，然后又声称这个'理由'是特权信息以规避披露，"Wang法官在裁决书中写道。她进一步指出，OpenAI声称所有删除理由都受特权保护的说法"令人难以置信"。

法院裁决文件

法院命令OpenAI在12月8日前提供所有与删除数据集相关的内部通讯，包括所有曾被以律师-客户特权为由删除或隐瞒的对LibGen的内部引用。此外，OpenAI的法务人员需在12月19日前接受质询。

法院对OpenAI内部Slack通讯的审查尤其具有启示性。OpenAI曾试图主张一个名为"excise-libgen"的Slack频道中的通讯受特权保护，因为其法务人员参与其中。

然而，Wang法官审查后发现，"绝大多数这些通讯不受特权保护，因为它们明显缺乏任何寻求法律建议的内容，且律师从未参与其中"。特别值得注意的是，OpenAI律师Jason Kwon仅在一条消息中参与，建议将频道名称更改为"project-clear"。

"仅仅因为频道是在律师指示下创建，或者律师被抄送了通讯，并不意味着整个Slack频道及其中的所有消息都受特权保护，"法官提醒道。

对于OpenAI而言，最大的风险在于可能被认定为故意侵权。在版权案件中，如果法院认定侵权是故意的，每部作品的法定赔偿金额可高达15万美元。

Wang法官在裁决中指出，OpenAI的撤回行为可能使其"善意和心态"成为争议点，这将增加败诉后的罚款。根据版权法，故意侵权意味着被告"实际知道侵权活动"或"其行为是对版权持有人权利的鲁莽忽视或故意视而不见"。

作者律师Christopher Young在法庭记录中指出，如果证据显示OpenAI因法律风险决定不在后续模型中使用这些数据集，公司将面临严重后果。他还暗示OpenAI可能使用不同名称的数据集来掩盖进一步的侵权行为。

Wang法官特别注意到OpenAI在近期文件中继续主张其行为出于善意，同时"巧妙地"删除了其善意抗辩中的关键词语，如"无辜"、"合理相信"和"善意"。

"陪审团有权了解OpenAI所称善意的依据，"Wang法官写道。

法官对OpenAI试图引用Anthropic裁决为其辩护的做法感到特别沮丧。OpenAI"奇怪地"引用了一项Anthropic裁决，该裁决"严重"歪曲了William Alsup法官的裁决，声称他发现"只要盗版书籍副本随后用于训练大语言模型，下载盗版书籍副本是合法的"。

实际上，Alsup法官表示怀疑"任何被控侵权人能否解释清楚为什么从海盗网站下载源副本(这些副本本可以合法购买或获取)对后续的公平使用是合理必要的"。Wang法官指出，OpenAI盗取书籍数据然后删除的行为似乎"完全符合"Alsup所禁止的活动类别。

对于原告而言，获取OpenAI的特权通讯可能成为案件的关键转折点。一些作者认为，赢得案件的关键可能是Anthropic CEO Dario Amodei的证词，他被指控在仍任职OpenAI期间创建了这些有争议的数据集。

法院文件显示，作者认为Amodei也掌握着关于数据集销毁的信息。OpenAI曾试图阻止作者对Amodei进行质询，但法官在3月支持了作者的请求，强制Amodei回答关于其参与度的关键问题。

这场纠纷的结果可能影响OpenAI是否最终解决诉讼的考量。在Anthropic达成史上最大公开报道的版权集体诉讼和解之前，起诉OpenAI的作者曾指出证据显示，Anthropic"出于法律原因"对在盗版书籍上训练"不再那么热衷"。

这似乎正是作者希望从OpenAI隐瞒的Slack消息中出现的" smoking gun "证据。在Anthropic支付15亿美元和解后，OpenAI面临的压力进一步增加。

这一案件远不止是OpenAI与作者之间的法律争端，它反映了AI发展中的一个根本性问题：如何平衡技术创新与知识产权保护。

AI模型的训练需要大量数据，而这些数据的获取往往处于法律灰色地带。OpenAI的案件表明，随着AI技术的普及，法律体系正试图为这一新兴领域设定明确的规则。

无论最终结果如何，OpenAI的案件已经为AI行业敲响了警钟。试图通过删除数据和引用特权来规避解释责任的做法，在法庭上被证明是危险的。

随着法院命令OpenAI披露其内部通讯，科技行业将密切关注这一案件的发展。这不仅关系到OpenAI的命运，也将影响未来AI训练数据的获取和使用方式，以及整个行业如何平衡创新与法律合规。

正如Wang法官所强调的，在法律面前，"翻滚"和前后矛盾的说辞只会让情况变得更糟。对于OpenAI而言，解释为何删除盗版书籍数据集的责任，已经无法回避。