OpenAI删除盗版书籍数据集背后的法律博弈:AI版权争议的关键转折点

1

在人工智能技术迅猛发展的今天,OpenAI作为行业领军企业,正面临一场可能重塑AI训练数据使用规则的法律挑战。这家开发ChatGPT的公司因删除包含盗版书籍的数据集而陷入争议,法院已裁定其必须公开解释删除动机。这一案件不仅关乎OpenAI的存亡,更可能为整个AI行业设定版权使用的法律边界。

数据集删除:争议的核心

案件的核心是OpenAI在2022年ChatGPT发布前删除的两个数据集——"Books 1"和"Books 2"。这些数据集由前OpenAI员工于2021年创建,通过抓取开放网络构建,主要数据来源于一个名为Library Genesis(LibGen)的影子图书馆。

OpenAI最初声称这些数据集在创建当年就已停止使用,因此被删除。然而,在作者提起的集体诉讼中,这一说法显得可疑。原告律师怀疑OpenAI删除数据集是为了掩盖其使用盗版材料训练AI模型的事实。

更引人注目的是,OpenAI在此案中表现出的前后矛盾。法院记录显示,OpenAI先是撤回"非使用"是删除数据集的理由的说法,随后又声称所有删除理由,包括"非使用",都应受律师-客户特权保护。这种"翻滚"行为引起了法院的注意。

法院裁决:特权主张的失效

美国地方法官Ona Wang对OpenAI的特权主张提出了严厉批评。在2025年12月的裁决中,Wang法官指出OpenAI在"非使用"是否构成删除理由的问题上"来回摇摆"。

"OpenAI不能先说'非使用'不是删除的理由(这意味着它不受特权保护),然后又声称这个'理由'是特权信息以规避披露,"Wang法官在裁决书中写道。她进一步指出,OpenAI声称所有删除理由都受特权保护的说法"令人难以置信"。

法院裁决文件

法院命令OpenAI在12月8日前提供所有与删除数据集相关的内部通讯,包括所有曾被以律师-客户特权为由删除或隐瞒的对LibGen的内部引用。此外,OpenAI的法务人员需在12月19日前接受质询。

Slack通讯:特权主张的漏洞

法院对OpenAI内部Slack通讯的审查尤其具有启示性。OpenAI曾试图主张一个名为"excise-libgen"的Slack频道中的通讯受特权保护,因为其法务人员参与其中。

然而,Wang法官审查后发现,"绝大多数这些通讯不受特权保护,因为它们明显缺乏任何寻求法律建议的内容,且律师从未参与其中"。特别值得注意的是,OpenAI律师Jason Kwon仅在一条消息中参与,建议将频道名称更改为"project-clear"。

"仅仅因为频道是在律师指示下创建,或者律师被抄送了通讯,并不意味着整个Slack频道及其中的所有消息都受特权保护,"法官提醒道。

故意侵权的风险:赔偿金额的飙升

对于OpenAI而言,最大的风险在于可能被认定为故意侵权。在版权案件中,如果法院认定侵权是故意的,每部作品的法定赔偿金额可高达15万美元。

Wang法官在裁决中指出,OpenAI的撤回行为可能使其"善意和心态"成为争议点,这将增加败诉后的罚款。根据版权法,故意侵权意味着被告"实际知道侵权活动"或"其行为是对版权持有人权利的鲁莽忽视或故意视而不见"。

作者律师Christopher Young在法庭记录中指出,如果证据显示OpenAI因法律风险决定不在后续模型中使用这些数据集,公司将面临严重后果。他还暗示OpenAI可能使用不同名称的数据集来掩盖进一步的侵权行为。

善意辩护的矛盾

Wang法官特别注意到OpenAI在近期文件中继续主张其行为出于善意,同时"巧妙地"删除了其善意抗辩中的关键词语,如"无辜"、"合理相信"和"善意"。

"陪审团有权了解OpenAI所称善意的依据,"Wang法官写道。

法官对OpenAI试图引用Anthropic裁决为其辩护的做法感到特别沮丧。OpenAI"奇怪地"引用了一项Anthropic裁决,该裁决"严重"歪曲了William Alsup法官的裁决,声称他发现"只要盗版书籍副本随后用于训练大语言模型,下载盗版书籍副本是合法的"。

实际上,Alsup法官表示怀疑"任何被控侵权人能否解释清楚为什么从海盗网站下载源副本(这些副本本可以合法购买或获取)对后续的公平使用是合理必要的"。Wang法官指出,OpenAI盗取书籍数据然后删除的行为似乎"完全符合"Alsup所禁止的活动类别。

关键证词:Dario Amodei的角色

对于原告而言,获取OpenAI的特权通讯可能成为案件的关键转折点。一些作者认为,赢得案件的关键可能是Anthropic CEO Dario Amodei的证词,他被指控在仍任职OpenAI期间创建了这些有争议的数据集。

法院文件显示,作者认为Amodei也掌握着关于数据集销毁的信息。OpenAI曾试图阻止作者对Amodei进行质询,但法官在3月支持了作者的请求,强制Amodei回答关于其参与度的关键问题。

行业影响:从Anthropic和解看OpenAI的未来

这场纠纷的结果可能影响OpenAI是否最终解决诉讼的考量。在Anthropic达成史上最大公开报道的版权集体诉讼和解之前,起诉OpenAI的作者曾指出证据显示,Anthropic"出于法律原因"对在盗版书籍上训练"不再那么热衷"。

这似乎正是作者希望从OpenAI隐瞒的Slack消息中出现的" smoking gun "证据。在Anthropic支付15亿美元和解后,OpenAI面临的压力进一步增加。

技术伦理与法律边界的重新审视

这一案件远不止是OpenAI与作者之间的法律争端,它反映了AI发展中的一个根本性问题:如何平衡技术创新与知识产权保护。

AI模型的训练需要大量数据,而这些数据的获取往往处于法律灰色地带。OpenAI的案件表明,随着AI技术的普及,法律体系正试图为这一新兴领域设定明确的规则。

结论:无法回避的解释责任

无论最终结果如何,OpenAI的案件已经为AI行业敲响了警钟。试图通过删除数据和引用特权来规避解释责任的做法,在法庭上被证明是危险的。

随着法院命令OpenAI披露其内部通讯,科技行业将密切关注这一案件的发展。这不仅关系到OpenAI的命运,也将影响未来AI训练数据的获取和使用方式,以及整个行业如何平衡创新与法律合规。

正如Wang法官所强调的,在法律面前,"翻滚"和前后矛盾的说辞只会让情况变得更糟。对于OpenAI而言,解释为何删除盗版书籍数据集的责任,已经无法回避。