OpenAI删除盗版书数据集之谜：法律风险与版权争议

在人工智能技术迅猛发展的今天，训练数据的合法性已成为行业不可回避的核心议题。OpenAI近期因删除盗版书籍数据集'Books 1'和'Books 2'而陷入法律困境，这一决定可能对其面临的版权侵权诉讼产生决定性影响。美国地方法官Ona Wang已命令OpenAI披露删除这些数据集的所有内部通信，包括与内部律师的讨论以及所有被基于律师-客户特权而删除的LibGen相关内容。这一裁决不仅关乎OpenAI的个案，更可能为整个AI行业的训练数据合规性设定重要先例。

数据删除背后的法律博弈

OpenAI删除'Books 1'和'Books 2'数据集的决定已成为其面临作者集体诉讼中的关键争议点。这些数据集由前OpenAI员工于2021年创建，通过抓取开放网络数据，主要从名为Library Genesis(LibGen)的影子图书馆获取了大量书籍数据。OpenAI声称这些数据集在2022年ChatGPT发布前已不再使用，因此被删除。

然而，作者们对这一解释持怀疑态度。他们注意到OpenAI在是否将'未使用'作为删除数据集的理由上前后矛盾：最初声称'未使用'是删除原因，随后又试图将所有删除理由都置于律师-客户特权的保护之下。这种矛盾引发了作者们的强烈质疑，他们怀疑OpenAI是在法院批准其查看OpenAI关于'未使用'的内部信息请求后迅速改变了立场。

AI法律争议

OpenAI面临的法律挑战反映了AI行业在训练数据获取方面的伦理与法律困境

法院裁决：特权主张的矛盾

王法官的裁决揭示了OpenAI在特权主张上的矛盾之处。OpenAI一方面声称'未使用'不是删除数据集的'理由'，另一方面又试图将'未使用'视为应受特权保护的'理由'。王法官明确指出：

'OpenAI不能先说一个'理由'(这意味着它不受特权保护)，然后又断言这个'理由'是特权保护的，以避免被发现。'

王法官还认为，OpenAI声称所有删除数据集的理由都应受特权保护的说法'难以置信'。她要求OpenAI在12月8日前提供一系列可能揭示内情的内部信息，并在12月19日前让内部律师接受质询。

OpenAI对这一裁决表示异议，声称从未改变立场或撤回任何内容，只是使用了模糊的措辞导致混淆。然而，王法官并未接受这一解释，得出结论称，即使像'未使用'这样的'理由'可能受特权保护，OpenAI通过使其特权主张'成为移动目标'已经放弃了特权。

Slack记录揭示的非特权沟通

法院审查的Slack记录显示，OpenAI内部关于删除数据集的沟通大多不受特权保护。王法官指出：'这些通信的绝大多数不受特权保护，因为它们明显缺乏任何寻求法律建议和咨询的请求，律师也从未参与其中。'

特别值得注意的是，名为'excise-libgen'的Slack频道（后来更名为'project-clear'）中的大多数消息都不受特权保护。即使OpenAI律师Jason Kwon曾建议更改频道名称，王法官也提醒OpenAI，'仅仅因为频道是在律师指示下创建的，以及律师被抄送了这些通信，并不意味着整个Slack频道及其包含的所有消息都受特权保护。'

故意侵权的法律风险

作者们相信，揭露OpenAI删除数据集的理由可能有助于证明ChatGPT开发者在盗用书籍数据时存在故意侵权行为。如果法院认定侵权是故意的，OpenAI可能面临每部侵权作品高达15万美元的法定赔偿金增加。

在OpenAI的法庭记录中，代表部分起诉OpenAI作者的律师Christopher Young指出，如果证据显示OpenAI因法律风险而决定不在后续模型中使用这些数据集，OpenAI可能会陷入麻烦。他还暗示OpenAI可能使用不同名称的数据集来掩盖进一步的侵权行为。

对公平使用原则的曲解

王法官特别对OpenAI似乎扭曲Anthropic裁决以反驳作者了解数据集删除请求的行为表示不满。OpenAI引用了一项Anthropic裁决，声称'只要随后用于训练大型语言模型，下载盗版书籍副本是合法的'。

然而，Alsup法官实际写道，他怀疑'任何被控侵权人能否解释为什么从海盗网站下载源副本(本可以合法购买或通过其他方式合法获取)对任何后续的合理使用是合理必要的'。王法官指出，OpenAI盗用书籍数据然后删除它的决定似乎'完全属于'Alsup禁止的活动范畴。为了强调这一点，她引用了Alsup的命令：'这种对可获取副本的盗用本质上是、不可挽回地侵权的，即使盗用的副本立即用于转换性使用并立即被丢弃。'

Anthropic案例的启示

在Anthropic达成历史性版权集体诉讼和解——历史上公开报道的最大版权集体诉讼和解——之前，起诉OpenAI的作者们指出证据表明，Anthropic'由于法律原因'不再'热衷于'在盗版书籍上训练。这似乎是作者们希望从OpenAI被扣留的Slack消息中出现的'确凿证据'。

AI法律与伦理

AI训练数据的合法性问题已成为行业发展的关键挑战

Amodei证词的潜在影响

一些作者认为，赢得诉讼的关键可能是Anthropic CEO Dario Amodei的证词，他被指控在仍任职OpenAI期间创建了有争议的数据集。法院记录显示，作者们认为Amodei也掌握有关数据集销毁的信息。

OpenAI曾试图阻止作者们传唤Amodei，但法官在3月份支持了作者们的请求，迫使Amodei回答关于其参与情况的重大问题。

Amodei的证词是否会成为'重磅炸弹'还有待观察，但很明显，OpenAI可能难以克服故意侵权的指控。王法官指出，在'一方基于律师建议主张善意防御，但又通过主张律师-客户特权阻止对其心态的调查'的情况下，存在'根本性冲突'，这表明OpenAI可能已严重削弱了自己的辩护。

行业影响与未来展望

OpenAI与作者之间关于数据集删除的争议结果将影响OpenAI对是否最终解决诉讼的考量。在Anthropic和解之前，作者们指出证据表明Anthropic'由于法律原因'不再'热衷于'在盗版书籍上训练。这似乎是作者们希望从OpenAI被扣留的Slack消息中出现的'确凿证据'。

这一案例对整个AI行业具有重要启示意义。随着AI技术的快速发展，训练数据的合法性和伦理性已成为不可回避的问题。OpenAI的困境表明，AI公司在获取训练数据时必须更加谨慎，确保其方法符合版权法和道德标准。

结论：AI发展的法律与伦理边界

OpenAI删除盗版书数据集的争议揭示了AI行业在快速发展过程中面临的法律和伦理挑战。法院的裁决表明，试图通过删除有争议的数据来逃避法律责任可能适得其反，反而会增加法律风险。

这一案例也强调了透明度和合规性在AI发展中的重要性。随着AI技术的不断进步，行业参与者需要更加重视数据来源的合法性，尊重创作者的版权，并建立更加透明和负责任的数据获取和使用机制。

最终，OpenAI的案例可能成为AI行业发展的一个重要转折点，推动整个行业更加注重法律合规和伦理标准，为AI技术的可持续发展奠定基础。