OpenAI删除盗版书籍数据集背后的法律博弈：AI训练版权争议升级

在人工智能技术迅猛发展的今天，OpenAI作为行业领军企业正面临一场关乎其商业模式合法性的严峻考验。这家开发ChatGPT的公司因删除两个包含盗版书籍的数据集而陷入法律漩涡，美国地方法官已命令其披露删除这些数据集的内部沟通记录。这一案件不仅关乎OpenAI的存续，更可能为整个AI行业设定数据获取的法律边界。

案件背景：从数据获取到法律危机

OpenAI面临的这场法律危机源于其用于训练ChatGPT的两个数据集——"Books 1"和"Books 2"。这两个数据集由OpenAI前员工于2021年创建，通过抓取开放网络获取数据，其中大部分数据来自一个名为Library Genesis(LibGen)的影子图书馆。这些数据集在ChatGPT于2022年发布前被删除，OpenAI声称这是因为这些数据集在同年已不再使用。

然而，这一说法引发了作者的质疑。在一桩针对OpenAI和Meta的集体诉讼中，作者们指控ChatGPT的训练过程非法使用了他们的作品。OpenAI删除数据集的决定成为案件的关键因素，可能直接决定诉讼结果。作者们怀疑，OpenAI删除这些数据集并非简单的"不再使用"，而是为了避免留下侵权的证据。

AI数据获取争议

图片来源：wenmei Zhou | DigitalVision Vectors

法律博弈：OpenAI的特权主张与法官的驳回

OpenAI最初试图以律师-客户特权为由拒绝披露删除数据集的原因，声称所有删除理由都应受到保护。然而，这一策略在美国地方法官Ona Wang的裁决面前遭遇了挫折。

特权主张的前后矛盾

OpenAI在法律文件中的表述出现了明显矛盾。一方面，公司声称"非使用"并非删除数据集的"理由"；另一方面，又主张所有删除理由，包括"非使用"，都应受特权保护。这种自相矛盾的立场引起了法官的警惕。

"OpenAI在'非使用'作为删除'Books 1'和'Books 2'的'理由'是否完全享有特权的问题上反复无常，"Wang法官在裁决中写道，"OpenAI不能先陈述一个'理由'（这意味着它不受特权保护），然后又主张该'理由'受特权保护以避免被发现。"

法官对特权主张的严格审查

Wang法官对OpenAI的特权主张进行了严格审查，特别是针对一个名为"excise-libgen"的Slack频道（后更名为"project-clear"）。尽管该频道是在律师指导下创建且有律师参与，但法官发现绝大多数通信"明显缺乏任何寻求法律建议的内容，且律师从未提供过法律意见"。

法官明确指出，"仅仅因为频道是在律师指导下创建和/或律师被抄送通信，并不意味着整个Slack频道及其中的所有通信都享有特权。"这一裁决大大限制了OpenAI以特权为由拒绝披露信息的范围。

故意侵权的风险：高达15万美元的法定赔偿

这场法律纠纷的核心在于OpenAI是否构成"故意侵权"。在版权案件中，如果法院认定侵权行为是故意的，每部侵权作品的法定赔偿可高达15万美元。

故意侵权的法律定义

作者们的律师Christopher Young在法庭记录中指出，如果证据显示OpenAI因法律风险决定不在后续模型中使用这些数据集，公司将面临严重后果。此外，他还暗示OpenAI可能使用不同名称继续使用这些数据集，以掩盖进一步的侵权行为。

OpenAI的自相矛盾

Wang法官特别注意到OpenAI在近期法律文件中的矛盾行为。一方面，公司继续主张其行为出于"善意"；另一方面，却"巧妙地"删除了"善意"、"合理相信"和"善意"等关键词。

"陪审团有权了解OpenAI所称善意的依据，"法官写道，"OpenAI在删除数据集一事上的前后不一，使其'善意'抗辩受到质疑。"

Anthropic先例：对公平使用的曲解

OpenAI在辩护过程中引用了Anthropic的相关裁决，但Wang法官发现这一引用存在严重曲解。

法官对引用的纠正

OpenAI引用了一位法官的裁决，称"只要盗版书籍副本随后用于训练大型语言模型，下载这些副本就是合法的"。然而，Wang法官指出，这完全歪曲了William Alsup法官的原始裁决。

实际上，Alsup法官曾质疑"任何被控侵权人能否解释为何从海盗网站下载源副本（这些副本本可以合法购买或获取）对后续的公平使用是合理必要的"。Wang法官强调，OpenAI盗取书籍数据然后删除的行为，"完全属于Alsup法官所禁止的活动类别"。

侵权行为的本质

为了强调这一点，Wang法官引用了Alsup法官的命令："即使盗版副本立即用于转换性使用并立即丢弃，这种对可获取副本的盗版本质上是、不可挽回地侵权的。"

这一引用直接挑战了OpenAI对其数据获取行为的辩护，暗示其行为不仅违反版权法，还可能构成故意侵权。

证词的重要性：Dario Amodei的关键角色

在这场法律纠纷中，Anthropic首席执行官Dario Amodei的证词可能成为关键因素。Amodei被指控在OpenAI任职期间创建了这些有争议的数据集，作者们认为他还掌握关于数据集销毁的信息。

OpenAI曾试图阻止作者对Amodei进行取证，但法官在3月裁定支持作者的请求，强制Amodei回答关于其参与度的关键问题。

行业影响与和解可能性

这场争议的结果将影响OpenAI是否最终选择和解案件。在Anthropic达成15亿美元的版权集体诉讼和解（历史上最大公开报告的版权集体诉讼和解）之前，起诉OpenAI的作者们曾指出证据显示Anthropic"因法律原因"对使用盗版书籍训练"不再那么热衷"。

这种"确凿证据"正是作者们希望从OpenAI被扣留的Slack消息中获取的内容。如果类似证据浮出水面，OpenAI可能面临巨大的法律和财务压力。

行业启示：AI训练数据获取的法律边界

OpenAI案件为整个AI行业提供了重要的法律启示，特别是在数据获取和版权保护方面。

数据获取的合法性

此案凸显了AI公司在获取训练数据时面临的合法性挑战。从公开网络抓取数据，特别是从可能包含侵权内容的来源获取数据，已成为行业标准做法，但OpenAI案件表明，这种做法可能面临严重的法律后果。

特权主张的局限性

OpenAI试图以律师-客户特权为由保护内部沟通的策略失败，表明在涉及潜在违法行为时，法院对特权主张的审查将更加严格。这提醒AI公司需要谨慎处理敏感数据，并确保其内部决策过程经得起法律审查。

行业自律的重要性

随着AI技术的不断发展，行业自律和最佳实践变得尤为重要。Anthropic的和解表明，大型AI公司可能更愿意通过法律途径解决版权问题，而非冒险旷日持久的诉讼。这可能促使整个行业重新审视数据获取策略，并寻求与内容创作者建立更公平的合作关系。

结论：无法回避的法律解释

OpenAI删除盗版书籍数据集的案件反映了AI技术与版权保护之间的深刻矛盾。无论最终结果如何，这一案件都将为AI行业设定重要的法律先例，影响未来数据获取和使用的边界。

对于OpenAI而言，这场法律危机不仅关乎巨额赔偿，更关乎其商业模式的核心——如何合法获取训练数据。公司可能需要重新考虑其数据策略，并在技术发展与知识产权保护之间寻找平衡点。

对于整个AI行业而言，这一案件提醒我们，在追求技术创新的同时，必须尊重和保护创作者的权益。只有建立公平、合法的数据获取机制，AI技术才能实现可持续发展，赢得更广泛的社会认可。

最终，OpenAI的案件可能成为AI发展史上的一个转折点，推动整个行业向更负责任、更可持续的方向发展。