Meta AI模型重现《哈利·波特》:版权诉讼的新导火索?

1

在人工智能领域,关于版权的讨论日益激烈。最近的一项研究表明,Meta(原Facebook)的AI模型在未经授权的情况下,能够重现《哈利·波特与魔法石》一书中近一半的内容。这项发现无疑给已经风起云涌的生成式AI版权诉讼火上浇油。那么,AI模型对版权内容的“记忆”究竟有多深?这又将如何影响未来的AI发展和版权保护?

AI模型与版权内容:一场记忆力的较量

近年来,包括书籍出版商、报纸、计算机代码以及摄影作品在内的众多版权所有者,纷纷对AI公司提起诉讼,指控它们使用受版权保护的材料来训练AI模型。这些诉讼的核心问题在于,AI模型在多大程度上能够原封不动地复制原告的版权内容。

以《纽约时报》在2023年12月对OpenAI提起的诉讼为例,该报提供了大量证据,证明GPT-4能够精确地重现《纽约时报》文章中的重要段落。对此,OpenAI回应称这只是一种“边缘行为”,并且公司正在努力解决这个问题。然而,事实果真如此吗?

为了更深入地了解这一问题,斯坦福大学、康奈尔大学和西弗吉尼亚大学的一个计算机科学家和法学学者团队进行了一项新的研究。他们选取了五个流行的开源模型,包括Meta的三个模型,以及微软和EleutherAI的各一个模型,来测试它们再现Books3文本的能力。Books3是一个被广泛用于训练大型语言模型(LLM)的图书集合,其中许多书籍仍在版权保护期内。

AI快讯

研究结果令人惊讶。如图所示,Llama 3.1 70B模型再现《哈利·波特与魔法石》片段的几率远高于其他四个模型。该研究估计,Llama 3.1 70B已经“记住”了《哈利·波特与魔法石》一书中42%的内容,并且能够以至少一半的概率生成50个token的摘录。(token是自然语言处理中的一个基本单位,可以是一个词、一个字或一个标点符号。)

更令人惊讶的是,Meta在2023年2月发布的类似规模的模型Llama 1 65B,仅“记住”了《哈利·波特与魔法石》的4.4%。这表明,尽管存在潜在的法律风险,Meta在训练Llama 3时并未采取足够的措施来防止模型记忆训练数据。至少就这本书而言,问题在Llama 1和Llama 3之间变得更加严重。

研究人员还测试了其他几十本书籍,发现Llama 3.1 70B更容易再现《霍比特人》和乔治·奥威尔的《1984》等流行书籍,而不是那些不太出名的作品。对于大多数书籍,Llama 3.1 70B的记忆量都超过了其他模型。

康奈尔大学法学教授James Grimmelmann表示:“不同模型在记忆文本方面的差异非常显著。”

版权诉讼的新视角:对原告和被告的影响

这项研究的结果为AI版权辩论的各方都提供了论据。对于AI行业的批评者来说,主要的结论是,至少对于某些模型和某些书籍而言,记忆并非一种边缘现象。另一方面,该研究仅发现少数流行书籍存在显著的记忆现象。例如,研究人员发现,Llama 3.1 70B仅记住了Richard Kadrey在2009年创作的小说《Sandman Slim》的0.13%。

这种差异可能会给那些对AI公司提起集体诉讼的律师事务所带来麻烦。Kadrey是对Meta提起集体诉讼的首席原告。要获得原告的集体认证,法院必须认定原告在很大程度上处于相似的法律和事实情况下。像这样不同的结果可能会让人怀疑,将J.K.罗琳、Kadrey和其他成千上万的作者归入一个大规模的诉讼中是否合理。这可能对Meta有利,因为大多数作者缺乏提起个人诉讼的资源。

这项研究更广泛的意义在于,细节将在这些版权案件中发挥重要作用。“生成模型是复制其训练数据,还是仅仅从中学习?”这一问题常常被视为一个理论甚至哲学问题。但实际上,这是一个可以通过实证检验的问题,并且答案可能因模型和受版权保护的作品而异。

如何衡量模型的记忆力?

通常,我们认为LLM是在预测下一个token。但实际上,模型所做的是生成一个概率分布,涵盖下一个token的所有可能性。例如,如果你用“花生酱和”来提示一个LLM,它会生成一个概率分布,如下所示:

  • P(“果冻”) = 70%
  • P(“糖”) = 9%
  • P(“花生酱”) = 6%
  • P(“巧克力”) = 4%
  • P(“奶油”) = 3%

以此类推。

在模型生成这样的概率列表后,系统会根据概率随机选择一个选项。因此,70%的情况下,系统会生成“花生酱和果冻”。9%的情况下,我们会得到“花生酱和糖”。

研究的作者不必生成多个输出来估计特定响应的可能性。相反,他们可以计算每个token的概率,然后将它们相乘。

假设有人想估计一个模型用“花生酱和果冻”来回应“我最喜欢的 sandwich 是”的可能性,方法如下:

  • 用“我最喜欢的 sandwich 是”提示模型,并查找“花生酱”的概率(假设为20%)。
  • 用“我最喜欢的 sandwich 是花生酱”提示模型,并查找“butter”的概率(假设为90%)。
  • 用“我最喜欢的 sandwich 是花生酱 butter”提示模型,并查找“和”的概率(假设为 80%)。
  • 用“我最喜欢的 sandwich 是花生酱 butter 和”提示模型,并查找“果冻”的概率(假设为 70%)。

然后,我们只需将概率相乘,如下所示:

  1. 2 * 0.9 * 0.8 * 0.7 = 0.1008

因此,我们可以预测,该模型大约有10%的概率会产生“花生酱和果冻”,而无需实际生成100或1000个输出,并计算其中有多少是完全相同的短语。

这种技术大大降低了研究的成本,使作者能够分析更多的书籍,并使精确估计非常低的概率成为可能。

例如,作者估计,需要超过10万亿个样本才能完全重现某些书籍中的某些50-token序列。显然,实际生成这么多输出是不切实际的。但是没有必要:只需将50个token的概率相乘就可以估计概率。

需要注意的关键一点是,概率可能会非常快地变得非常小。在示例中,模型产生四个token“花生酱 butter 和果冻”的概率仅为10%。如果我们添加更多的token,概率会变得更低。如果我们添加46个更多的token,概率可能会下降几个数量级。

对于任何语言模型,偶然生成任何给定的50-token序列的概率都非常小。如果一个模型生成来自受版权保护作品的50个token,那么这是一个有力的证据,证明这些token“来自”训练数据。即使它仅生成这些token的10%、1%或0.01%的时间,也是如此。

《哈利·波特》是如何进入Llama模型的?

研究作者选取了36本书,并将每本书分成重叠的100-token段落。使用前50个token作为提示,他们计算了接下来的50个token与原始段落相同的概率。如果模型有大于50%的几率逐字逐句地再现一个段落,他们就认为这个段落被“记忆”了。

这个定义非常严格。要使一个50-token序列的概率大于50%,段落中平均每个token的概率需要至少为98.5%! 此外,作者只计算完全匹配的情况。他们没有试图计算模型生成了原始段落中的48或49个token,但错误地生成了一个或两个token的情况。如果计算这些情况,记忆量会更高。

这项研究提供了有力的证据,表明《哈利·波特与魔法石》的很大一部分被复制到了Llama 3.1 70B的权重中。但是,这一发现并没有告诉我们为什么或如何发生这种情况。我怀疑部分原因是Llama 3 70B在15万亿个token上进行了训练,是Llama 1 65B的1.4万亿个token的10倍以上。

一个模型在一个特定的例子上训练的次数越多,它就越有可能记住这个例子。也许Meta很难找到15万亿个不同的token,所以它在Books3数据集上训练了多次。或者,Meta可能添加了第三方来源,例如在线《哈利·波特》粉丝论坛、消费者图书评论或学生图书报告,其中包括《哈利·波特》和其他流行书籍的引言。

我不确定这些解释是否完全符合事实。记忆对于最流行的书籍来说是一个更大的问题,这一事实表明Llama可能接受过引用这些书籍的二手来源的训练,而不是书籍本身。在线关于《哈利·波特》的讨论可能比《Sandman Slim》多得多。

另一方面,令人惊讶的是Llama记住了这么多的《哈利·波特与魔法石》。

“如果是引文和引语,你会期望它集中在一些每个人都引用或谈论的流行事物上,”Lemley说。Llama 3记住了几乎一半的书,这一事实表明整个文本在训练数据中得到了很好的体现。

或者可能有另一种解释。也许Meta在其训练配方中做出了细微的改变,意外地加剧了记忆问题。我上周通过电子邮件向Meta发表评论,但尚未收到回复。

“这似乎并不全是流行的书籍,”Mark Lemley告诉我。“一些流行的书籍有这个结果,而另一些则没有。很难提出一个明确的故事来说明为什么会发生这种情况。”

三种责任理论

实际上,关于在受版权保护的作品上训练模型如何侵犯版权,有三种不同的理论:

  1. 在受版权保护的作品上进行训练本质上是侵权的,因为训练过程涉及制作该作品的数字副本。
  2. 训练过程将信息从训练数据复制到模型中,使该模型成为版权法下的衍生作品。
  3. 当模型生成受版权保护作品的(部分)时,就会发生侵权。

到目前为止,很多讨论都集中在第一个理论上,因为它对AI公司最具威胁性。如果法院支持这一理论,那么大多数当前的LLM都是非法的,无论它们是否记住了任何训练数据。

AI行业有一些非常有力的论据,认为在训练过程中使用受版权保护的作品是合理使用。但是,Llama 3.1 70B记住了《哈利·波特》的很大一部分,这可能会影响法院如何考虑这些合理使用问题。

合理使用分析的关键部分是使用是否具有“变革性”,即公司是否创造了新的东西,或者仅仅是从他人的作品中获利。语言模型能够 regurgitate 《哈利·波特》、《1984》和《霍比特人》等流行作品的很大一部分,这一事实可能会导致法官更怀疑地看待这些合理使用论点。

此外,谷歌在图书案中的一个关键论点是,它的系统旨在永远不会返回任何书籍的短篇。如果Meta诉讼中的法官想要区分Meta的论点与谷歌在图书案中提出的论点,他可以指出Llama可以生成远远超过几行《哈利·波特》。

这项新的研究“使被告在这些案件中讲述的故事变得复杂化”,合著者Mark Lemley告诉我。“也就是说,‘我们只是学习单词模式。这些都不会出现在模型中。’“

但是,《哈利·波特》的结果根据第二种理论给Meta带来了更大的危险——即Llama本身就是罗琳著作的衍生副本。

“很明显,你可以从模型中提取《哈利·波特》和各种其他书籍的很大一部分,”Lemley说。“这向我表明,可能对于其中的一些书籍,有一些法律会称之为模型本身中部分书籍的副本。”

谷歌图书的先例可能无法保护Meta免受第二种法律理论的侵害,因为谷歌从未将其图书数据库提供给用户下载——如果谷歌这样做,几乎肯定会败诉。

原则上,Meta仍然可以说服法官,根据灵活的法官制定的合理使用原则,允许复制《哈利·波特》的42%。但这将是一场艰苦的战斗。

“你必须做的合理使用分析不仅仅是‘训练集是否合理使用’,而是‘模型中的纳入是否合理使用?’”Lemley说。“这使被告的故事变得复杂化。”

Grimmelmann还表示,这项研究可能会使开放权重模型比封闭权重模型面临更大的法律风险。康奈尔大学和斯坦福大学的研究人员只能完成他们的工作,因为作者可以访问底层模型,因此可以访问token概率值,从而可以有效地计算token序列的概率。

包括OpenAI、Anthropic和谷歌在内的大多数领先实验室都越来越限制对此类所谓的logits的访问,从而更难以研究这些模型。

此外,如果一家公司将其模型权重保存在自己的服务器上,则可以使用过滤器来尝试防止侵权输出到达外部世界。因此,即使底层的OpenAI、Anthropic和谷歌模型以与Llama 3.1 70B相同的方式记住了受版权保护的作品,公司以外的任何人都可能很难证明这一点。

此外,这种过滤使拥有封闭权重模型的公司更容易援引谷歌图书的先例。简而言之,版权法可能会对公司发布开放权重模型产生强大的抑制作用。

“这有点不正常,”Mark Lemley告诉我。“我不喜欢这个结果。”

另一方面,法官可能会得出结论,有效地惩罚公司发布开放权重模型是不好的。

“在某种程度上,开放和共享权重是一种公共服务,”Grimmelmann告诉我。“我确实可以诚实地看到法官对Meta和其他提供开放权重模型的人不太怀疑。”