在人工智能技术迅猛发展的今天,数据获取的合法性成为行业面临的核心挑战之一。OpenAI,这家引领AI浪潮的公司,因删除盗版书籍数据集"Books 1"和"Books 2"的决策陷入法律漩涡,法院已命令其披露相关内部通信。这一案件不仅关乎OpenAI的诉讼命运,更折射出AI行业在数据获取与版权保护之间的深刻矛盾。
案件背景:被删除的盗版数据集
2021年,OpenAI员工创建了"Books 1"和"Books 2"两个数据集,通过抓取开放网络数据,主要来源于一个名为Library Genesis(LibGen)的影子图书馆。这些数据集在ChatGPT发布前被删除,OpenAI声称这是因为数据集已不再使用。
然而,在作者们提起的集体诉讼中,这一删除行为成为关键争议点。作者们指控ChatGPT非法使用了他们的作品进行训练,而OpenAI删除这些数据集的真正动机成为案件的核心问题。
法律博弈:OpenAI的"特权"辩护
OpenAI一直试图以律师-客户特权为由,拒绝解释删除数据集的具体原因。公司声称所有删除理由都应受到法律保护,这一立场在法庭上遭遇了重大挫折。
美国地方法官Ona Wang在12月初的裁决中明确指出,OpenAI在此问题上的立场自相矛盾。OpenAI一方面声称"非使用"不是删除数据集的理由,另一方面又坚持认为所有删除理由都应受到特权保护。
"OpenAI不能先说一个'理由'(这意味着它不受特权保护),然后又断言这个'理由'是特权保护的,以避免被发现,"Wang法官在裁决书中写道。她认为OpenAI的立场"难以置信",并命令公司在12月8日前提供相关内部信息。
法院裁决:特权保护的双刃剑
Wang法官的裁决揭示了OpenAI在内部通信中的关键问题。法院审查了OpenAI内部名为"excise-libgen"(后更名为"project-clear")的Slack频道信息,发现大多数通信并不享有特权保护。
法官特别指出,OpenAI律师Jason Kwon仅在频道中出现过一次,建议更改频道名称,这不足以使整个通信内容获得特权保护。"仅仅因为频道是由律师创建或律师被抄送,并不意味着整个Slack频道及其中的所有消息都享有特权,"Wang法官强调。
这一裁决对OpenAI的诉讼策略构成重大打击,因为内部通信可能揭示公司对版权侵权的真实态度,直接影响法院对"故意侵权"的认定。
故意侵权的法律风险
在版权案件中,如果法院认定侵权是"故意的",法定赔偿金额可提高至每件侵权作品高达15万美元。Wang法官指出,OpenAI在删除数据集问题上的立场转变,可能使其"善意和心态"成为争议焦点。
作者律师Christopher Young在法庭记录中表示,如果证据显示OpenAI因法律风险决定不再使用这些数据集,或正在使用不同名称的数据集掩盖进一步侵权,公司将面临严重法律后果。
法律策略的矛盾与自相矛盾
Wang法官特别批评了OpenAI在近期法律文件中的行为。公司一方面声称其行为出于善意,另一方面却"巧妙地"删除了"善意"、"合理相信"等关键表述。
法官对OpenAI引用Anthropic案件的做法表示不满,认为公司"奇怪地"引用了William Alsup法官的裁决,"严重歪曲"了原意。Alsup法官实际上质疑任何被告能否解释为什么从盗版网站下载本可合法获取的源文件是必要的。
Wang法官强调,OpenAI盗取书籍数据然后删除的行为,"完全属于"Alsup法官所禁止的活动范围。她引用Alsup的命令:"即使盗版副本立即用于转换性使用并立即丢弃,这种对可获取副本的盗版本质上也是不可挽回的侵权行为。"
行业影响:AI训练数据的合法获取
这一案件对整个AI行业产生了深远影响。在Anthropic与作者达成15亿美元和解后,OpenAI面临的压力倍增。作者们希望从OpenAI的内部通信中找到类似"法律原因"导致放弃盗版训练数据的"确凿证据"。
案件也引发了关于AI训练数据获取方式的广泛讨论。随着越来越多作者对AI公司提起诉讼,行业亟需建立合法、透明的数据获取机制,避免陷入持续的法律纠纷。
未来展望:OpenAI的诉讼策略与行业变革
OpenAI已表示不同意法院裁决并计划上诉。然而,无论上诉结果如何,这一案件已经确立了重要先例:AI公司在数据获取过程中的决策过程和内部通信可能成为诉讼中的关键证据。
Anthropic CEO Dario Amodei的证词也可能成为案件转折点。Amodei被指控在OpenAI任职期间创建了这些争议数据集,法院已命令他就此事作证。
结论:数据合规与AI发展的平衡
OpenAI删除盗版数据集的争议案件,反映了人工智能发展过程中面临的根本性挑战:如何在技术创新与知识产权保护之间取得平衡。随着法院对案件相关信息的披露,我们可能会更清楚地了解AI巨头在数据获取决策背后的真实考量。
无论案件最终结果如何,这一事件都将推动AI行业更加重视数据获取的合法性和透明度,促使企业建立更完善的数据合规机制,为AI技术的可持续发展奠定基础。在人工智能重塑内容创作格局的今天,尊重知识产权不仅是法律要求,更是行业健康发展的必然选择。









