OpenAI删除盗版书籍数据集背后的法律博弈与AI伦理困境

案件背景：从数据集删除到法律诉讼

OpenAI正面临一场可能决定其命运的法律挑战——一场由作者提起的集体诉讼，指控ChatGPT在训练过程中非法使用了受版权保护的作品。案件的核心争议点之一是OpenAI删除的两个盗版书籍数据集，被称为'Books 1'和'Books 2'。这两个数据集由前OpenAI员工于2021年创建，通过网络爬虫获取数据，主要来自一个名为Library Genesis(LibGen)的影子图书馆。

OpenAI声称这些数据集在创建当年就被弃用，因此被删除。然而，作者们怀疑这一说法背后隐藏着更多内情。随着案件进展，OpenAI在这一问题上的立场出现了明显变化，从最初的'未使用'理由，到后来以律师-客户特权为由拒绝披露更多细节，这一系列变化引起了法院的关注。

法院裁决：OpenAI的'前后矛盾'被揭穿

2025年12月，美国地方法官Ona Wang作出了一项关键裁决，命令OpenAI披露与删除数据集相关的所有内部通信，特别是那些被以律师-客户特权为由隐藏的关于LibGen的内部参考。

法官在裁决中指出，OpenAI在这一问题上存在'前后矛盾'。一方面，OpenAI声称'未使用'不是删除数据集的理由；另一方面，又试图将'未使用'作为特权信息来避免披露。Wang法官明确表示：

'OpenAI不能先说一个'理由'（这意味着它不受特权保护），然后又声称这个'理由'是特权信息以避免披露。'

更关键的是，法官认为OpenAI声称所有删除理由都受特权保护的说法'难以置信'。OpenAI被要求在12月8日前提供一系列可能揭示内情的内部信息，并在12月19日前让其内部律师接受质询。

特权争议：Slack通信与法律策略的暴露

案件的一个关键转折点是对OpenAI内部Slack通信的审查。OpenAI曾试图以律师-客户特权为由拒绝提供这些通信，但法官发现这些通信绝大多数'明显缺乏任何寻求法律建议的请求，且律师从未参与其中'。

特别引人注目的是一个最初名为'excise-libgen'的Slack频道（后来更名为'project-clear'）。法官发现，尽管一名OpenAI律师Jason Kwon曾建议更改频道名称，但这并不足以使整个频道的通信都受特权保护。

Wang法官提醒OpenAI：'仅仅因为频道是在律师指示下创建的，或者律师被抄送了通信，并不意味着整个Slack频道及其中的所有消息都享有特权。'

法律后果：从'未使用'到'故意侵权'的风险

作者们认为，揭示OpenAI删除数据集的真实理由可能有助于证明ChatGPT的创建者故意侵犯了版权。如果法院认定OpenAI的侵权行为是故意的，根据美国版权法，每部被侵权作品的法定赔偿金可能高达15万美元。

在法庭记录中，代表作者的律师Christopher Young指出，如果证据显示OpenAI因法律风险决定不在后续模型中使用这些数据集，或者以不同名称继续使用这些数据集以掩盖进一步的侵权行为，OpenAI将陷入严重困境。

法官对OpenAI'公平使用'辩护的批评

Wang法官还对OpenAI在近期文件中继续声称其行为出于'善意'的做法表示不满，指出OpenAI'巧妙地'删除了其'善意'抗辩和'无辜'、'合理相信'、'善意'等关键词。这些变化反而强化了作者关于故意侵权的理论。

法官特别批评OpenAI'奇怪地'引用Anthropic的裁决，'严重'歪曲了William Alsup法官的判决。Alsup法官实际上质疑'任何被控侵权者能否解释为什么从海盗网站下载源副本——本可以合法购买或获取——本身对任何后续的合理使用是必要的'。

Wang法官强调，OpenAI盗取书籍数据然后删除的行为'完全属于'Alsup法官所禁止的活动。她引用Alsup的命令：'对可获取副本的这种盗版，即使盗版副本立即用于转换用途并立即丢弃，本质上也是不可挽回的侵权行为。'

行业影响：从Anthropic和解看OpenAI的未来

这起案件的走向将直接影响OpenAI是否最终选择和解。在Anthropic创纪录的15亿美元和解案——历史上最大公开报道的版权集体诉讼和解案——之前，起诉OpenAI的作者们曾指出证据表明，Anthropic'因法律原因'不再热衷于使用盗版书籍进行训练。

作者们希望从OpenAI隐瞒的Slack消息中找到类似的'确凿证据'。Anthropic的和解为类似案件设立了先例，表明大型AI公司可能需要为其数据获取实践支付巨额费用。

关键证人：Anthropic CEO的潜在证词

作者们认为，Anthropic CEO Dario Amodei的证词可能是赢得案件的关键。Amodei被指控在仍任职于OpenAI期间创建了这些有争议的数据集，并且据称掌握有关数据集销毁的信息。

OpenAI曾试图阻止作者对Amodei进行质询，但法官在3月支持了作者的请求，强制Amodei回答关于其参与情况的重大问题。Amodei的证词是否会成为'重磅炸弹'仍有待观察，但OpenAI在故意侵权指控上可能面临严峻挑战。

法律策略的冲突与OpenAI的困境

Wang法官指出，OpenAI面临一个'根本性冲突'：一方面基于律师建议主张善意抗辩，另一方面又通过主张律师-客户特权来阻止对其心态的调查。这种做法可能已经严重削弱了OpenAI的辩护立场。

案件的结果将不仅影响OpenAI，还可能为整个AI行业设定数据获取的法律标准。随着生成式AI技术的快速发展，如何在创新与版权保护之间取得平衡，已成为法律界和技术界共同面临的挑战。