OpenAI删除盗版数据集背后的法律博弈：AI训练的版权困境

在人工智能技术飞速发展的今天，数据来源的合法性成为行业关注的焦点。OpenAI近期因删除盗版书籍数据集而陷入的法律纠纷，不仅关乎一家公司的命运，更可能为整个AI行业设定重要的法律先例。本文将深入分析这一案件的来龙去脉，探讨其背后的法律争议及其对AI产业的影响。

案件背景：从数据集删除到法律诉讼

OpenAI面临的这场法律纠纷源于其用于训练ChatGPT的"Books 1"和"Books 2"数据集。这些数据集由前OpenAI员工于2021年创建，通过抓取开放网络获取数据，主要来源是一个名为Library Genesis(LibGen)的影子图书馆。

这些数据集在ChatGPT于2022年发布前已被删除。OpenAI方面解释称，这些数据集在创建当年就已停止使用，因此内部决定将其删除。然而，在作者提起的集体诉讼中，这一行为被质疑另有隐情。

原告作者认为，OpenAI删除数据集的行为可能是为了避免在诉讼中暴露其训练数据来源的非法性。这一担忧不无道理，因为LibGen作为一个提供大量盗版书籍的平台，其内容显然受到版权保护。

OpenAI在案件中的立场出现了明显的前后矛盾，这成为法官Ona Wang作出不利裁决的关键因素。

最初，OpenAI声称删除数据集的原因是"非使用"，即这些数据集并未被用于实际训练。然而，当法院要求披露相关内部沟通时，OpenAI又转而声称所有删除原因都属于律师-客户特权范畴，不应被披露。

法官Wang在裁决中指出："OpenAI在'非使用'是否为删除数据集的'理由'是否应享有特权的问题上反复无常。OpenAI不能先陈述一个'理由'（这意味着它不享有特权），然后又声称该'理由'享有特权以避免披露。"

这种矛盾立场不仅削弱了OpenAI的可信度，还可能对案件结果产生重大影响。法官特别强调，OpenAI声称所有删除原因都享有特权"令人难以置信"，并要求OpenAI在12月8日前提供广泛的内部信息，同时在12月19日前让内部律师接受质询。

这场法律纠纷对OpenAI而言风险极高。在版权案件中，如果法院认定侵权行为是故意的，被告可能面临每部作品最高15万美元的法定赔偿金。

原告律师Christopher Young在法庭记录中指出，如果证据显示OpenAI因法律风险决定不在后续模型中使用这些数据集，公司可能会陷入困境。他还暗示OpenAI可能使用不同名称的数据集来掩盖进一步的侵权行为。

法官Wang对OpenAI的行为提出了多项批评，特别是在引用判例方面的不当做法。

OpenAI试图引用William Alsup法官关于Anthropic的裁决来为其行为辩护，声称Alsup认为"只要盗版书籍副本随后用于训练大语言模型，下载盗版书籍副本就是合法的"。然而，Wang法官指出这一引用"荒谬地"曲解了Alsup的裁决。

实际上，Alsup法官曾表示怀疑"任何被控侵权人能否解释为什么从海盗网站下载源副本——这些副本本可以合法购买或以其他方式访问——本身对任何后续合理使用是合理必要的"。

Wang法官认为，OpenAI盗取书籍数据然后删除的行为似乎"完全属于"Alsup所禁止的活动。她引用Alsup的命令强调："即使盗版副本立即用于转换用途并立即丢弃，这种对可获取副本的盗版本质上、不可挽回地构成侵权。"

法官Wang特别关注OpenAI的内部沟通，尤其是关于"excise-libgen"频道的Slack消息。

经过审查，Wang发现"绝大多数这些通信不享有特权，因为它们明显缺乏任何寻求法律建议的请求，且律师[从未]参与权衡"。

值得注意的是，OpenAI律师Jason Kwon仅在一条消息中发表意见，建议将频道名称更改为"project-clear"。Wang法官提醒OpenAI，仅仅因为频道是在律师指示下创建的，以及律师被抄送了通信，并不意味着整个Slack频道及其中的所有消息都享有特权。

这一案件发生在大模型公司面临日益增长的版权压力的背景下。此前，Anthropic与作者达成了15亿美元的和解协议，这是历史上公开报道的最大版权集体诉讼和解案。

在Anthropic和解后，起诉OpenAI的作者指出，有证据显示Anthropic"因法律原因"对使用盗版书籍进行训练变得"不那么热衷"。这类证据正是作者希望从OpenAI隐瞒的Slack消息中获取的"确凿证据"。

案件的一个关键点是Anthropic CEO Dario Amodei的潜在证词。Amodei被指控在仍任职于OpenAI期间创建了有争议的数据集。作者认为Amodei也掌握关于数据集销毁的信息。

OpenAI曾试图反对作者传唤Amodei的动议，但法官在3月支持了作者，强制Amodei回答关于其参与的重大问题。

Amodei的证词是否会成为"重磅炸弹"仍有待观察，但很明显，OpenAI可能难以克服故意侵权的指控。Wang法官指出，在"一方基于律师建议主张善意辩护，但又通过主张律师-客户特权来阻止对其心态的调查"的情况下，存在"根本性冲突"。

OpenAI案件凸显了AI行业在训练数据获取方面面临的合规挑战。随着AI模型规模不断扩大，对高质量数据的需求也日益增长，但合法获取这些数据并非易事。

这一案件可能促使AI公司重新审视其数据收集策略，更加注重版权合规。同时，它也可能推动行业建立更明确的数据获取标准和实践指南。

鉴于OpenAI面临的潜在风险，案件的结果可能会影响公司是否最终选择和解。Anthropic的先例表明，大型科技公司可能更倾向于通过和解而非诉讼来解决此类争议。

然而，OpenAI已表示"不同意裁决并打算上诉"，这表明公司可能选择继续法律斗争而非妥协。这一决定将取决于公司对案件结果的评估以及潜在赔偿金额的严重程度。

OpenAI删除盗版数据集的案件反映了数字时代版权保护与创新需求之间的紧张关系。一方面，版权保护对于创作者权益至关重要；另一方面，AI技术的发展需要大量数据作为训练基础。

这一案件的结果将为AI行业设定重要先例，影响未来公司如何获取训练数据以及如何处理潜在的版权问题。无论最终裁决如何，它都将促使整个行业更加重视数据合规，并探索创新的方式在尊重版权的同时推动技术进步。

AI与版权

法律文件