OpenAI删除盗版书数据集背后的法律博弈与版权争议

在人工智能技术迅猛发展的今天，数据获取的合法性问题日益凸显。OpenAI作为ChatGPT的开发者，因删除含有盗版书籍的数据集而陷入一场复杂的法律纠纷。这一案件不仅关乎OpenAI的存续，更可能为整个AI行业设定数据获取的新标准。本文将深入剖析这一案件的来龙去脉，揭示其中的法律博弈与版权争议。

案件背景：OpenAI的数据集删除行为

OpenAI删除了两个名为"Books 1"和"Books 2"的数据集，这些数据集由前OpenAI员工于2021年创建，通过网络抓取获取数据，主要来源于一个名为Library Genesis(LibGen)的影子图书馆。OpenAI声称这些数据集在创建后不久就被弃用，因此被删除。然而，在作者提起的集体诉讼中，这一行为成为关键争议点。

AI数据争议

这些数据集的删除时间点也引发质疑——恰好在ChatGPT于2022年发布之前。作者方认为，OpenAI删除这些数据集可能是为了避免在法律程序中暴露其使用盗版材料训练AI模型的事实。

法律争议：OpenAI的"非使用"说辞与法律特权主张

OpenAI最初以"非使用"为由解释数据集的删除，但在法院要求披露相关信息后，又转而声称所有删除原因都受律师-客户特权保护。这种前后不一致的说法被法官Ona Wang称为"翻来覆去"，并最终导致法院要求OpenAI披露相关内部沟通记录。

Wang法官在裁决中指出："OpenAI不能先称'非使用'是删除数据集的'原因'（这意味着它不受特权保护），然后又声称这个'原因'是特权信息以避免披露。"这种矛盾立场严重削弱了OpenAI的可信度。

法院裁决：特权主张的局限性

在12月1日发布的裁决中，Wang法官明确表示，OpenAI不能仅通过删除先前文件中的几个词来阻止对"非使用"的发现程序。她指出，OpenAI的特权主张"难以置信"，因为该公司已经使其特权主张成为一个"移动目标"。

法官特别审查了OpenAI内部名为"excise-libgen"的Slack频道（后更名为"project-clear"）的通信记录，发现"绝大多数通信不受特权保护，因为它们明显缺乏任何寻求法律建议的请求，且律师从未参与其中。"

潜在后果：高达15万美元每部作品的赔偿风险

这一案件对OpenAI而言风险极高。如果法院认定OpenAI存在故意侵权行为，根据美国版权法， statutory damages可能高达每部侵权作品15万美元。Wang法官在裁决中强调，OpenAI的撤回行为可能使其"善意和心态"成为争议点，这将增加败诉后的罚款金额。

法官对OpenAI法律策略的批评

Wang法官对OpenAI在法律文件中的策略提出严厉批评。她注意到OpenAI在最近的一份文件中继续主张其行为是出于善意，但同时"巧妙地"删除了其善意抗辩和"无辜"、"合理相信"和"善意"等关键词。

法官特别批评OpenAI"奇怪地"引用Anthropic的裁决，"严重"歪曲了William Alsup法官的决定。Alsup法官实际上曾质疑"任何被控侵权者能否解释为什么从海盗网站下载源副本是合理必要的"，而OpenAI的表述则暗示"下载盗版书籍用于训练大语言模型是合法的"。

Anthropic先例与行业影响

在OpenAI案件之前，Anthropic已经达成了一项15亿美元的版权和解协议，这是历史上最大规模的公开报告的版权集体诉讼和解。作者们指出，Anthropic因"法律原因"对使用盗版书籍训练AI变得"不那么热衷"。

这一先例可能对OpenAI的案件产生深远影响。如果法院发现OpenAI因法律风险而决定不在后续模型中使用这些数据集，或者正在使用不同名称的数据集掩盖进一步侵权，这将对其极为不利。

关键证人：Dario Amodei的潜在证词

作者们认为，Anthropic CEO Dario Amodei的证词可能是案件的关键。Amodei被指控在仍任职于OpenAI期间创建了这些有争议的数据集，并且可能掌握有关数据集销毁的信息。

尽管OpenAI试图阻止作者对Amodei的取证要求，但法官在3月已支持作者方，强制Amodei回答关于其参与度的重大问题。Amodei的证词可能揭示OpenAI内部对数据集使用的真实态度和决策过程。

行业启示：AI训练数据获取的新标准

这一案件对整个AI行业具有重要启示意义。它凸显了AI公司在获取训练数据时面临的版权风险，以及如何平衡技术创新与版权保护之间的关系。

未来，AI公司可能需要更加透明地处理数据来源问题，并建立更加严格的数据合规机制。同时，这一案件也可能推动行业建立更加明确的数据获取标准和伦理框架。

技术创新与版权保护的平衡

OpenAI案件反映了技术创新与版权保护之间永恒的张力。一方面，AI技术的进步需要大量数据支持；另一方面，创作者的权益也需要得到保护。

这一案件的结果可能为这种平衡提供新的法律框架，影响未来AI技术的发展方向。法院的裁决将明确AI公司在使用受版权保护材料时的界限，为行业提供更明确的指导。

OpenAI的应对策略与未来走向

面对这一法律挑战，OpenAI已表示"不同意这一裁决并打算上诉"。然而，随着法院要求其披露更多内部信息，OpenAI的法律处境日益艰难。

OpenAI可能需要重新评估其法律策略，考虑是否与作者达成和解。无论如何，这一案件的结果将对OpenAI的未来发展产生深远影响，也可能改变整个AI行业的格局。

结论：AI时代的版权新挑战

OpenAI删除盗版书数据集的案件反映了AI时代面临的新型版权挑战。随着AI技术的不断发展，如何在保护知识产权的同时促进技术创新，将成为法律界、科技界和政策制定者共同面对的重要课题。

这一案件的结果不仅关乎OpenAI的命运，更可能为AI行业设定新的标准和先例。无论最终裁决如何，它都将推动社会对AI训练数据获取合法性的深入思考，促进更加健康、可持续的AI生态系统发展。

AI与版权

在AI技术日益融入我们生活的今天，确保技术创新与版权保护之间的平衡至关重要。OpenAI案件只是这一宏大叙事中的一个章节，但它所引发的思考将长期影响AI行业的发展轨迹。随着案件的发展，我们将继续见证法律如何适应技术变革，以及如何在保护创新的同时尊重创作者权益。