OpenAI删除盗版书数据集引发法律危机：为何回避解释成关键？

在人工智能技术迅猛发展的今天，数据获取的合法性问题日益凸显。OpenAI因删除含有盗版书籍的数据集而陷入一场可能改变行业格局的法律纠纷。这一案件不仅关乎OpenAI自身的命运，更可能为整个AI行业设定重要的法律先例。

数据删除背后的法律博弈

OpenAI面临的核心问题是为何要删除名为"Books 1"和"Books 2"的数据集，这些数据集据信包含了大量盗版书籍内容。美国地方法官Ona Wang最近裁定，OpenAI必须披露所有与删除这些数据集相关的内部通信，包括此前以"律师-客户特权"为由隐瞒的内容。

"OpenAI在'非使用'是否为删除数据集的理由问题上反复无常，"Wang法官在裁决中写道，"OpenAI不能声称某事是'理由'（暗示其不受特权保护），然后又断言该'理由'应受特权保护以规避披露。"

这一裁决源于作者集体诉讼，指控ChatGPT在训练过程中非法使用了受版权保护的作品。OpenAI在2022年ChatGPT发布前删除了这些数据集，但作者们怀疑这一行为背后有更复杂的考量。

"Books 1"和"Books 2"数据集由前OpenAI员工于2021年创建，通过抓取开放网络构建，主要数据来源是一个名为Library Genesis(LibGen)的影子图书馆。OpenAI声称这些数据集在创建后很快就被弃用，因此被删除。

然而，作者们对这一解释持怀疑态度。他们注意到OpenAI在法庭上的立场似乎有所变化：最初将"非使用"列为删除原因，后来又声称所有删除理由都应受律师-客户特权保护。

数据删除示意图

OpenAI删除数据集的决定可能成为诉讼中的关键证据

Wang法官的裁决包含几个关键点：

特权主张的矛盾：OpenAI不能一方面将"非使用"描述为删除数据集的理由，另一方面又声称这一理由应受特权保护。
Slack通信的非特权性质：法官审查了OpenAI内部名为"excise-libgen"的Slack频道通信，发现"绝大多数通信不享有特权，因为它们明显缺乏任何寻求法律建议的请求，且律师从未参与讨论。"
法律后果的严重性：如果法院认定OpenAI存在故意侵权行为，每部被侵权作品的法定赔偿金额可能高达15万美元。

Wang法官特别注意到OpenAI在法律文件中的矛盾行为：一方面继续主张其行为出于"善意"，另一方面却"巧妙地"移除了"善意"、"合理相信"等关键表述。

"陪审团有权了解OpenAI所称善意的依据，"Wang法官写道。

更令人质疑的是，OpenAI似乎试图曲解Anthropic案中的裁决来为自己的行为辩护。Wang法官在脚注中批评OpenAI"荒谬地"引用Anthropic案，该案"严重"歪判了William Alsup法官的决定。

Alsup法官实际上曾表示，"任何被控侵权人都无法解释为什么从海盗网站下载源代码是合理必要的，尤其是当这些代码可以通过合法购买或其他合法方式获取时。"

作者们认为，获取OpenAI的特权通信可能成为案件的关键转折点。一些作者认为，Anthropic CEO Dario Amodei的证词可能尤为重要，他被指控在仍在OpenAI工作时创建了这些有争议的数据集。

尽管OpenAI试图阻止对Amodei的取证，但法官在3月已裁定作者可以就Amodei的 involvement提出问题。

这场纠纷的结果可能影响OpenAI是否最终选择和解此案。在Anthropic达成15亿美元的版权和解后（这是历史上最大规模的公开报道的版权集体诉讼和解），作者们希望从OpenAI的Slack消息中找到"确凿证据"。

Anthropic的和解似乎表明，该公司"出于法律原因"不再热衷于使用盗版书籍进行训练。作者们希望找到类似证据，证明OpenAI也意识到了使用盗版数据的法律风险。

AI与版权关系图

AI训练数据获取与版权保护的平衡关系

这一案件触及了AI行业的一个核心问题：如何在创新与尊重知识产权之间取得平衡。AI模型的训练需要大量数据，但数据的合法获取往往面临技术和法律上的挑战。

OpenAI的困境在于，它似乎试图通过删除数据集来规避责任，但这一行为本身可能成为证明其故意侵权的证据。正如Wang法官所指出的，"OpenAI决定盗取图书数据然后删除它，似乎完全属于Alsup法官所禁止的活动类别。"

无论最终结果如何，OpenAI的案件都将成为AI行业发展的一个重要转折点。它迫使整个行业重新思考数据获取的合法性和道德性，以及如何在技术创新与法律合规之间找到平衡。

随着法院要求OpenAI披露更多内部信息，以及前高管可能的关键证词，这场法律战的结果将不仅影响OpenAI的命运，也可能为整个AI行业设定重要的法律先例，影响未来AI训练数据的获取方式和版权合规标准。