OpenAI删除盗版书籍数据集背后的法律博弈:AI训练版权争议升级

2

在人工智能技术迅猛发展的今天,OpenAI作为行业领军企业正面临一场关乎其商业模式合法性的严峻考验。这家开发ChatGPT的公司因删除两个包含盗版书籍的数据集而陷入法律漩涡,美国地方法官已命令其披露删除这些数据集的内部沟通记录。这一案件不仅关乎OpenAI的存续,更可能为整个AI行业设定数据获取的法律边界。

案件背景:从数据获取到法律危机

OpenAI面临的这场法律危机源于其用于训练ChatGPT的两个数据集——"Books 1"和"Books 2"。这两个数据集由OpenAI前员工于2021年创建,通过抓取开放网络获取数据,其中大部分数据来自一个名为Library Genesis(LibGen)的影子图书馆。这些数据集在ChatGPT于2022年发布前被删除,OpenAI声称这是因为这些数据集在同年已不再使用。

然而,这一说法引发了作者的质疑。在一桩针对OpenAI和Meta的集体诉讼中,作者们指控ChatGPT的训练过程非法使用了他们的作品。OpenAI删除数据集的决定成为案件的关键因素,可能直接决定诉讼结果。作者们怀疑,OpenAI删除这些数据集并非简单的"不再使用",而是为了避免留下侵权的证据。

AI数据获取争议

图片来源:wenmei Zhou | DigitalVision Vectors

法律博弈:OpenAI的特权主张与法官的驳回

OpenAI最初试图以律师-客户特权为由拒绝披露删除数据集的原因,声称所有删除理由都应受到保护。然而,这一策略在美国地方法官Ona Wang的裁决面前遭遇了挫折。

特权主张的前后矛盾

OpenAI在法律文件中的表述出现了明显矛盾。一方面,公司声称"非使用"并非删除数据集的"理由";另一方面,又主张所有删除理由,包括"非使用",都应受特权保护。这种自相矛盾的立场引起了法官的警惕。

"OpenAI在'非使用'作为删除'Books 1'和'Books 2'的'理由'是否完全享有特权的问题上反复无常,"Wang法官在裁决中写道,"OpenAI不能先陈述一个'理由'(这意味着它不受特权保护),然后又主张该'理由'受特权保护以避免被发现。"

法官对特权主张的严格审查

Wang法官对OpenAI的特权主张进行了严格审查,特别是针对一个名为"excise-libgen"的Slack频道(后更名为"project-clear")。尽管该频道是在律师指导下创建且有律师参与,但法官发现绝大多数通信"明显缺乏任何寻求法律建议的内容,且律师从未提供过法律意见"。

法官明确指出,"仅仅因为频道是在律师指导下创建和/或律师被抄送通信,并不意味着整个Slack频道及其中的所有通信都享有特权。"这一裁决大大限制了OpenAI以特权为由拒绝披露信息的范围。

故意侵权的风险:高达15万美元的法定赔偿

这场法律纠纷的核心在于OpenAI是否构成"故意侵权"。在版权案件中,如果法院认定侵权行为是故意的,每部侵权作品的法定赔偿可高达15万美元。

故意侵权的法律定义

根据Wang法官的解释,"故意"意味着"被告实际上知道侵权活动"或"被告的行为是对版权所有者权利的鲁莽忽视或故意视而不见"。若证明OpenAI存在故意侵权,其面临的赔偿金额将是天文数字。

作者们的律师Christopher Young在法庭记录中指出,如果证据显示OpenAI因法律风险决定不在后续模型中使用这些数据集,公司将面临严重后果。此外,他还暗示OpenAI可能使用不同名称继续使用这些数据集,以掩盖进一步的侵权行为。

OpenAI的自相矛盾

Wang法官特别注意到OpenAI在近期法律文件中的矛盾行为。一方面,公司继续主张其行为出于"善意";另一方面,却"巧妙地"删除了"善意"、"合理相信"和"善意"等关键词。

"陪审团有权了解OpenAI所称善意的依据,"法官写道,"OpenAI在删除数据集一事上的前后不一,使其'善意'抗辩受到质疑。"

Anthropic先例:对公平使用的曲解

OpenAI在辩护过程中引用了Anthropic的相关裁决,但Wang法官发现这一引用存在严重曲解。

法官对引用的纠正

OpenAI引用了一位法官的裁决,称"只要盗版书籍副本随后用于训练大型语言模型,下载这些副本就是合法的"。然而,Wang法官指出,这完全歪曲了William Alsup法官的原始裁决。

实际上,Alsup法官曾质疑"任何被控侵权人能否解释为何从海盗网站下载源副本(这些副本本可以合法购买或获取)对后续的公平使用是合理必要的"。Wang法官强调,OpenAI盗取书籍数据然后删除的行为,"完全属于Alsup法官所禁止的活动类别"。

侵权行为的本质

为了强调这一点,Wang法官引用了Alsup法官的命令:"即使盗版副本立即用于转换性使用并立即丢弃,这种对可获取副本的盗版本质上是、不可挽回地侵权的。"

这一引用直接挑战了OpenAI对其数据获取行为的辩护,暗示其行为不仅违反版权法,还可能构成故意侵权。

证词的重要性:Dario Amodei的关键角色

在这场法律纠纷中,Anthropic首席执行官Dario Amodei的证词可能成为关键因素。Amodei被指控在OpenAI任职期间创建了这些有争议的数据集,作者们认为他还掌握关于数据集销毁的信息。

OpenAI曾试图阻止作者对Amodei进行取证,但法官在3月裁定支持作者的请求,强制Amodei回答关于其参与度的关键问题。

行业影响与和解可能性

这场争议的结果将影响OpenAI是否最终选择和解案件。在Anthropic达成15亿美元的版权集体诉讼和解(历史上最大公开报告的版权集体诉讼和解)之前,起诉OpenAI的作者们曾指出证据显示Anthropic"因法律原因"对使用盗版书籍训练"不再那么热衷"。

这种"确凿证据"正是作者们希望从OpenAI被扣留的Slack消息中获取的内容。如果类似证据浮出水面,OpenAI可能面临巨大的法律和财务压力。

行业启示:AI训练数据获取的法律边界

OpenAI案件为整个AI行业提供了重要的法律启示,特别是在数据获取和版权保护方面。

数据获取的合法性

此案凸显了AI公司在获取训练数据时面临的合法性挑战。从公开网络抓取数据,特别是从可能包含侵权内容的来源获取数据,已成为行业标准做法,但OpenAI案件表明,这种做法可能面临严重的法律后果。

特权主张的局限性

OpenAI试图以律师-客户特权为由保护内部沟通的策略失败,表明在涉及潜在违法行为时,法院对特权主张的审查将更加严格。这提醒AI公司需要谨慎处理敏感数据,并确保其内部决策过程经得起法律审查。

行业自律的重要性

随着AI技术的不断发展,行业自律和最佳实践变得尤为重要。Anthropic的和解表明,大型AI公司可能更愿意通过法律途径解决版权问题,而非冒险旷日持久的诉讼。这可能促使整个行业重新审视数据获取策略,并寻求与内容创作者建立更公平的合作关系。

结论:无法回避的法律解释

OpenAI删除盗版书籍数据集的案件反映了AI技术与版权保护之间的深刻矛盾。无论最终结果如何,这一案件都将为AI行业设定重要的法律先例,影响未来数据获取和使用的边界。

对于OpenAI而言,这场法律危机不仅关乎巨额赔偿,更关乎其商业模式的核心——如何合法获取训练数据。公司可能需要重新考虑其数据策略,并在技术发展与知识产权保护之间寻找平衡点。

对于整个AI行业而言,这一案件提醒我们,在追求技术创新的同时,必须尊重和保护创作者的权益。只有建立公平、合法的数据获取机制,AI技术才能实现可持续发展,赢得更广泛的社会认可。

最终,OpenAI的案件可能成为AI发展史上的一个转折点,推动整个行业向更负责任、更可持续的方向发展。