案件背景:从数据集删除到法律诉讼
OpenAI正面临一场可能决定其命运的法律挑战——一场由作者提起的集体诉讼,指控ChatGPT在训练过程中非法使用了受版权保护的作品。案件的核心争议点之一是OpenAI删除的两个盗版书籍数据集,被称为'Books 1'和'Books 2'。这两个数据集由前OpenAI员工于2021年创建,通过网络爬虫获取数据,主要来自一个名为Library Genesis(LibGen)的影子图书馆。
OpenAI声称这些数据集在创建当年就被弃用,因此被删除。然而,作者们怀疑这一说法背后隐藏着更多内情。随着案件进展,OpenAI在这一问题上的立场出现了明显变化,从最初的'未使用'理由,到后来以律师-客户特权为由拒绝披露更多细节,这一系列变化引起了法院的关注。
法院裁决:OpenAI的'前后矛盾'被揭穿
2025年12月,美国地方法官Ona Wang作出了一项关键裁决,命令OpenAI披露与删除数据集相关的所有内部通信,特别是那些被以律师-客户特权为由隐藏的关于LibGen的内部参考。
法官在裁决中指出,OpenAI在这一问题上存在'前后矛盾'。一方面,OpenAI声称'未使用'不是删除数据集的理由;另一方面,又试图将'未使用'作为特权信息来避免披露。Wang法官明确表示:
'OpenAI不能先说一个'理由'(这意味着它不受特权保护),然后又声称这个'理由'是特权信息以避免披露。'
更关键的是,法官认为OpenAI声称所有删除理由都受特权保护的说法'难以置信'。OpenAI被要求在12月8日前提供一系列可能揭示内情的内部信息,并在12月19日前让其内部律师接受质询。
特权争议:Slack通信与法律策略的暴露
案件的一个关键转折点是对OpenAI内部Slack通信的审查。OpenAI曾试图以律师-客户特权为由拒绝提供这些通信,但法官发现这些通信绝大多数'明显缺乏任何寻求法律建议的请求,且律师从未参与其中'。
特别引人注目的是一个最初名为'excise-libgen'的Slack频道(后来更名为'project-clear')。法官发现,尽管一名OpenAI律师Jason Kwon曾建议更改频道名称,但这并不足以使整个频道的通信都受特权保护。
Wang法官提醒OpenAI:'仅仅因为频道是在律师指示下创建的,或者律师被抄送了通信,并不意味着整个Slack频道及其中的所有消息都享有特权。'
法律后果:从'未使用'到'故意侵权'的风险
作者们认为,揭示OpenAI删除数据集的真实理由可能有助于证明ChatGPT的创建者故意侵犯了版权。如果法院认定OpenAI的侵权行为是故意的,根据美国版权法,每部被侵权作品的法定赔偿金可能高达15万美元。
在法庭记录中,代表作者的律师Christopher Young指出,如果证据显示OpenAI因法律风险决定不在后续模型中使用这些数据集,或者以不同名称继续使用这些数据集以掩盖进一步的侵权行为,OpenAI将陷入严重困境。
法官对OpenAI'公平使用'辩护的批评
Wang法官还对OpenAI在近期文件中继续声称其行为出于'善意'的做法表示不满,指出OpenAI'巧妙地'删除了其'善意'抗辩和'无辜'、'合理相信'、'善意'等关键词。这些变化反而强化了作者关于故意侵权的理论。
法官特别批评OpenAI'奇怪地'引用Anthropic的裁决,'严重'歪曲了William Alsup法官的判决。Alsup法官实际上质疑'任何被控侵权者能否解释为什么从海盗网站下载源副本——本可以合法购买或获取——本身对任何后续的合理使用是必要的'。
Wang法官强调,OpenAI盗取书籍数据然后删除的行为'完全属于'Alsup法官所禁止的活动。她引用Alsup的命令:'对可获取副本的这种盗版,即使盗版副本立即用于转换用途并立即丢弃,本质上也是不可挽回的侵权行为。'
行业影响:从Anthropic和解看OpenAI的未来
这起案件的走向将直接影响OpenAI是否最终选择和解。在Anthropic创纪录的15亿美元和解案——历史上最大公开报道的版权集体诉讼和解案——之前,起诉OpenAI的作者们曾指出证据表明,Anthropic'因法律原因'不再热衷于使用盗版书籍进行训练。
作者们希望从OpenAI隐瞒的Slack消息中找到类似的'确凿证据'。Anthropic的和解为类似案件设立了先例,表明大型AI公司可能需要为其数据获取实践支付巨额费用。
关键证人:Anthropic CEO的潜在证词
作者们认为,Anthropic CEO Dario Amodei的证词可能是赢得案件的关键。Amodei被指控在仍任职于OpenAI期间创建了这些有争议的数据集,并且据称掌握有关数据集销毁的信息。
OpenAI曾试图阻止作者对Amodei进行质询,但法官在3月支持了作者的请求,强制Amodei回答关于其参与情况的重大问题。Amodei的证词是否会成为'重磅炸弹'仍有待观察,但OpenAI在故意侵权指控上可能面临严峻挑战。
法律策略的冲突与OpenAI的困境
Wang法官指出,OpenAI面临一个'根本性冲突':一方面基于律师建议主张善意抗辩,另一方面又通过主张律师-客户特权来阻止对其心态的调查。这种做法可能已经严重削弱了OpenAI的辩护立场。
案件的结果将不仅影响OpenAI,还可能为整个AI行业设定数据获取的法律标准。随着生成式AI技术的快速发展,如何在创新与版权保护之间取得平衡,已成为法律界和技术界共同面临的挑战。











