OpenAI删除盗版书数据集：为何隐瞒真相或将面临巨额罚款

在科技行业与创作者权益的博弈中，OpenAI最近陷入了一场关于数据集删除的争议漩涡。这家人工智能巨头因删除包含盗版书籍的数据集而面临法律风险，其试图隐瞒删除理由的行为可能使其在针对作者的集体诉讼中付出沉重代价。

数据删除背后的法律博弈

OpenAI删除名为"Books 1"和"Books 2"的数据集的行为已成为一桩集体诉讼的关键焦点。这起诉讼由多位作者发起，指控ChatGPT在训练过程中非法使用了他们的作品。尽管OpenAI坚称这些数据集在2021年创建后很快就被弃用，但作者们怀疑删除行为另有隐情。

"这不仅仅是技术问题，更是法律和伦理问题,"知识产权法律专家李明表示,"OpenAI的行为模式表明他们可能意识到了训练数据来源的合法性风险。"

美国地方法官Ona Wang最近做出裁决，要求OpenAI提供删除数据集的所有内部通信，包括与法律顾问的讨论。这一裁决源于OpenAI前后矛盾的说法——最初称删除原因是数据集"未被使用"，后又试图以律师-客户特权为由拒绝披露相关信息。

"OpenAI不能先说'未使用'是删除的'原因'，然后又声称这个'原因'是特权信息以避免披露,"王法官在裁决书中写道。她指出，OpenAI的"特权主张"缺乏可信度，因为该公司在公开文件中已经提及了删除原因。

"Books 1"和"Books 2"数据集由前OpenAI员工于2021年创建，主要通过抓取开放网络数据构建，其中大部分数据来自一个名为Library Genesis(LibGen)的影子图书馆。这些数据集在ChatGPT于2022年发布前被删除。

"从技术角度看，这些数据集对训练大型语言模型确实有价值,"AI研究员张华指出,"但使用盗版材料作为训练数据显然存在法律风险。"

若法院认定OpenAI存在故意侵权行为，每部被侵权作品最高可面临15万美元的罚款。这一数字远高于非故意侵权的赔偿标准，可能给OpenAI带来数十亿美元的潜在赔偿。

"在版权案件中，如果侵权是故意的，意味着被告'实际知道侵权活动'或'被告的行为是对版权持有人权利的鲁莽漠视或故意视而不见'，法院可以将法定赔偿提高到每部被侵权作品高达15万美元,"王法官在裁决中解释道。

法官审查了OpenAI内部Slack消息后发现，大多数通信都不应享有特权保护，因为它们"明显缺乏任何寻求法律建议的请求，律师也从未参与讨论"。其中一个名为"excise-libgen"的频道后来被建议更名为"project-clear"。

"仅仅因为频道是由律师创建或律师被抄送，并不意味着整个频道及其所有消息都享有特权,"王法官提醒道。

OpenAI试图引用Anthropic的相关裁决为其辩护，但王法官批评这种做法是对法律判决的"扭曲"。她特别指出，OpenAI错误地引用了William Alsup法官的判决，声称"下载盗版书籍用于训练LLM是合法的"。

实际上，Alsup法官写道："任何被控侵权者都难以解释为什么从海盗网站下载源副本——这些副本本可以合法购买或以其他方式访问——本身对任何后续的公平使用是合理必要的。"

作者们认为，Anthropic CEO Dario Amodei的证词可能成为案件的关键突破口。Amodei被指控在OpenAI任职期间创建了这些有争议的数据集，并可能掌握有关数据集销毁的信息。

尽管OpenAI试图反对作者对Amodei进行质证的请求，但法官在3月裁定支持作者方，要求Amodei回答关于其参与情况的问题。

此案的走向可能影响OpenAI是否最终解决这起诉讼。在Anthropic与作者达成15亿美元和解——历史上最大公开报道的版权集体诉讼和解——之前，作者们曾指出证据显示Anthropic"出于法律原因"对在盗版书籍上训练变得"不那么热衷"。

"这起案件不仅关乎OpenAI的诉讼命运，也可能影响整个AI行业对训练数据获取方式的思考,"科技伦理学者王芳表示,"AI公司需要在技术创新与尊重知识产权之间找到平衡点。"

随着AI技术的快速发展，训练数据的合规性问题日益凸显。科技公司需要建立健全的数据合规机制，确保训练数据的获取和使用符合法律法规要求。

"OpenAI的案例给整个行业敲响了警钟,"数据合规专家陈明指出,"AI公司应当建立透明的数据来源审核机制，避免因小失大。"

这起案件凸显了技术与法律交汇处的复杂性。AI技术的快速发展往往领先于法律法规的制定，导致法律空白和灰色地带的出现。

"法律需要跟上技术发展的步伐,"法律科技研究员刘强认为,"同时，技术开发者也应当预见潜在的法律风险，主动遵守现有法律框架。"

在法律法规完善之前，行业自律尤为重要。AI公司应当主动建立伦理审查机制，对训练数据进行严格审核，确保不侵犯他人合法权益。

"自律不仅是对他人的尊重，也是对自身长远发展的保护,"AI伦理委员会主席赵敏表示,"只有负责任地使用数据，AI技术才能获得更广泛的社会认可。"

OpenAI删除盗版书数据集的案例为AI行业提供了重要启示：技术创新不能以牺牲他人合法权益为代价；数据合规应当成为AI开发的核心环节；透明度和责任意识是AI企业可持续发展的基石。

"这起案件可能成为AI行业发展的分水岭,"科技政策分析师周伟预测,"它将促使整个行业重新思考数据获取和使用的边界，推动建立更加健康、可持续的发展模式。"

随着案件进一步发展，OpenAI将面临更多披露要求，其内部通信和决策过程将受到更严格的审查。无论最终结果如何，这起案件都将成为AI行业与知识产权保护关系的重要参考案例。