在人工智能技术迅猛发展的今天,训练数据的合法性已成为行业不可回避的核心议题。OpenAI近期因删除盗版书籍数据集'Books 1'和'Books 2'而陷入法律困境,这一决定可能对其面临的版权侵权诉讼产生决定性影响。美国地方法官Ona Wang已命令OpenAI披露删除这些数据集的所有内部通信,包括与内部律师的讨论以及所有被基于律师-客户特权而删除的LibGen相关内容。这一裁决不仅关乎OpenAI的个案,更可能为整个AI行业的训练数据合规性设定重要先例。
数据删除背后的法律博弈
OpenAI删除'Books 1'和'Books 2'数据集的决定已成为其面临作者集体诉讼中的关键争议点。这些数据集由前OpenAI员工于2021年创建,通过抓取开放网络数据,主要从名为Library Genesis(LibGen)的影子图书馆获取了大量书籍数据。OpenAI声称这些数据集在2022年ChatGPT发布前已不再使用,因此被删除。
然而,作者们对这一解释持怀疑态度。他们注意到OpenAI在是否将'未使用'作为删除数据集的理由上前后矛盾:最初声称'未使用'是删除原因,随后又试图将所有删除理由都置于律师-客户特权的保护之下。这种矛盾引发了作者们的强烈质疑,他们怀疑OpenAI是在法院批准其查看OpenAI关于'未使用'的内部信息请求后迅速改变了立场。

OpenAI面临的法律挑战反映了AI行业在训练数据获取方面的伦理与法律困境
法院裁决:特权主张的矛盾
王法官的裁决揭示了OpenAI在特权主张上的矛盾之处。OpenAI一方面声称'未使用'不是删除数据集的'理由',另一方面又试图将'未使用'视为应受特权保护的'理由'。王法官明确指出:
'OpenAI不能先说一个'理由'(这意味着它不受特权保护),然后又断言这个'理由'是特权保护的,以避免被发现。'
王法官还认为,OpenAI声称所有删除数据集的理由都应受特权保护的说法'难以置信'。她要求OpenAI在12月8日前提供一系列可能揭示内情的内部信息,并在12月19日前让内部律师接受质询。
OpenAI对这一裁决表示异议,声称从未改变立场或撤回任何内容,只是使用了模糊的措辞导致混淆。然而,王法官并未接受这一解释,得出结论称,即使像'未使用'这样的'理由'可能受特权保护,OpenAI通过使其特权主张'成为移动目标'已经放弃了特权。
Slack记录揭示的非特权沟通
法院审查的Slack记录显示,OpenAI内部关于删除数据集的沟通大多不受特权保护。王法官指出:'这些通信的绝大多数不受特权保护,因为它们明显缺乏任何寻求法律建议和咨询的请求,律师也从未参与其中。'
特别值得注意的是,名为'excise-libgen'的Slack频道(后来更名为'project-clear')中的大多数消息都不受特权保护。即使OpenAI律师Jason Kwon曾建议更改频道名称,王法官也提醒OpenAI,'仅仅因为频道是在律师指示下创建的,以及律师被抄送了这些通信,并不意味着整个Slack频道及其包含的所有消息都受特权保护。'
故意侵权的法律风险
作者们相信,揭露OpenAI删除数据集的理由可能有助于证明ChatGPT开发者在盗用书籍数据时存在故意侵权行为。如果法院认定侵权是故意的,OpenAI可能面临每部侵权作品高达15万美元的法定赔偿金增加。
根据王法官的解释,在版权案件中,如果侵权是故意的,即'被告实际上知道侵权活动'或'被告的行为是对版权所有者权利的鲁莽忽视或故意视而不见',法院可以将法定赔偿金提高到每部侵权作品15万美元。
在OpenAI的法庭记录中,代表部分起诉OpenAI作者的律师Christopher Young指出,如果证据显示OpenAI因法律风险而决定不在后续模型中使用这些数据集,OpenAI可能会陷入麻烦。他还暗示OpenAI可能使用不同名称的数据集来掩盖进一步的侵权行为。
对公平使用原则的曲解
王法官特别对OpenAI似乎扭曲Anthropic裁决以反驳作者了解数据集删除请求的行为表示不满。OpenAI引用了一项Anthropic裁决,声称'只要随后用于训练大型语言模型,下载盗版书籍副本是合法的'。
然而,Alsup法官实际写道,他怀疑'任何被控侵权人能否解释为什么从海盗网站下载源副本(本可以合法购买或通过其他方式合法获取)对任何后续的合理使用是合理必要的'。王法官指出,OpenAI盗用书籍数据然后删除它的决定似乎'完全属于'Alsup禁止的活动范畴。为了强调这一点,她引用了Alsup的命令:'这种对可获取副本的盗用本质上是、不可挽回地侵权的,即使盗用的副本立即用于转换性使用并立即被丢弃。'
Anthropic案例的启示
在Anthropic达成历史性版权集体诉讼和解——历史上公开报道的最大版权集体诉讼和解——之前,起诉OpenAI的作者们指出证据表明,Anthropic'由于法律原因'不再'热衷于'在盗版书籍上训练。这似乎是作者们希望从OpenAI被扣留的Slack消息中出现的'确凿证据'。

AI训练数据的合法性问题已成为行业发展的关键挑战
Amodei证词的潜在影响
一些作者认为,赢得诉讼的关键可能是Anthropic CEO Dario Amodei的证词,他被指控在仍任职OpenAI期间创建了有争议的数据集。法院记录显示,作者们认为Amodei也掌握有关数据集销毁的信息。
OpenAI曾试图阻止作者们传唤Amodei,但法官在3月份支持了作者们的请求,迫使Amodei回答关于其参与情况的重大问题。
Amodei的证词是否会成为'重磅炸弹'还有待观察,但很明显,OpenAI可能难以克服故意侵权的指控。王法官指出,在'一方基于律师建议主张善意防御,但又通过主张律师-客户特权阻止对其心态的调查'的情况下,存在'根本性冲突',这表明OpenAI可能已严重削弱了自己的辩护。
行业影响与未来展望
OpenAI与作者之间关于数据集删除的争议结果将影响OpenAI对是否最终解决诉讼的考量。在Anthropic和解之前,作者们指出证据表明Anthropic'由于法律原因'不再'热衷于'在盗版书籍上训练。这似乎是作者们希望从OpenAI被扣留的Slack消息中出现的'确凿证据'。
这一案例对整个AI行业具有重要启示意义。随着AI技术的快速发展,训练数据的合法性和伦理性已成为不可回避的问题。OpenAI的困境表明,AI公司在获取训练数据时必须更加谨慎,确保其方法符合版权法和道德标准。
结论:AI发展的法律与伦理边界
OpenAI删除盗版书数据集的争议揭示了AI行业在快速发展过程中面临的法律和伦理挑战。法院的裁决表明,试图通过删除有争议的数据来逃避法律责任可能适得其反,反而会增加法律风险。
这一案例也强调了透明度和合规性在AI发展中的重要性。随着AI技术的不断进步,行业参与者需要更加重视数据来源的合法性,尊重创作者的版权,并建立更加透明和负责任的数据获取和使用机制。
最终,OpenAI的案例可能成为AI行业发展的一个重要转折点,推动整个行业更加注重法律合规和伦理标准,为AI技术的可持续发展奠定基础。









