AI版权诉讼的新战线:Meta的Llama 3与《哈利·波特》的侵权争议
近年来,人工智能(AI)技术的飞速发展引发了一系列法律诉讼,其中最引人关注的莫过于AI模型训练过程中对版权材料的使用。从书籍、报纸到计算机代码和照片,众多版权所有者纷纷将AI公司告上法庭,指控其未经授权使用受版权保护的内容来训练AI模型。这些诉讼的核心问题在于,AI模型在多大程度上能够精确复制原告拥有版权的内容。
《纽约时报》在2023年12月对OpenAI提起的诉讼就是一个典型的例子。该报社提供了大量证据,证明GPT-4能够精确复制《纽约时报》文章中的重要段落。尽管OpenAI对此辩解称这是一种“边缘行为”,并表示正在努力解决这个问题,但事实是否如此?AI公司是否已经有效地解决了这个问题?
最近一项研究将焦点放在书籍而非报纸文章上,并关注不同公司的AI模型,为我们提供了新的视角。这项研究的结果可能会对原告的论点有所支持,但同时也可能对被告更为有利。
这项由斯坦福大学、康奈尔大学和西弗吉尼亚大学的计算机科学家和法学学者组成的团队进行的研究,于上个月发表。他们研究了五种流行的开源模型——Meta的三种模型、微软的一种模型和EleutherAI的一种模型——是否能够复制Books3中的文本。Books3是一个广泛用于训练大型语言模型(LLM)的书籍集合,其中许多书籍仍在版权保护期内。
研究中最令人惊讶的发现可以用下图来表示:
这张图表展示了让模型生成《哈利·波特与魔法石》中50个token的片段的难易程度。线条越深,表示复制该部分内容越容易。每一行代表一个不同的模型。底部的三行是Meta的Llama模型。从图中可以看出,Meta在2024年7月发布的Llama 3.1 70B(一个中等规模的模型)比其他四个模型更容易复制《哈利·波特》的文本。
具体来说,该研究估计,Llama 3.1 70B已经记住了《哈利·波特与魔法石》中42%的内容,足以在至少一半的时间内复制50个token的片段。(后续会详细解释这是如何测量的。)
有趣的是,Meta在2023年2月发布的类似规模的模型Llama 1 65B,只记住了《哈利·波特与魔法石》的4.4%。这表明,尽管存在潜在的法律责任,Meta在训练Llama 3时并没有采取太多措施来防止记忆。至少对于这本书来说,这个问题在Llama 1和Llama 3之间变得更加严重。
《哈利·波特与魔法石》只是研究人员测试的众多书籍之一。他们发现,Llama 3.1 70B更容易复制流行的书籍,如《霍比特人》和乔治·奥威尔的《1984》,而不是不太知名的书籍。而且对于大多数书籍,Llama 3.1 70B的记忆量都超过了其他模型。
康奈尔大学法学教授James Grimmelmann表示:“不同模型在记忆的文本数量方面存在着非常显著的差异。”
这项研究的结果让包括斯坦福大学法学教授Mark Lemley在内的研究作者感到惊讶。(Lemley曾经是Meta法律团队的一员,但在Facebook采取了更偏向特朗普的审核政策后,他于今年1月放弃了Meta这个客户。)
Lemley告诉我:“我们原本预计会看到某种程度的低水平可复制性,大概在1%或2%左右。但最让我惊讶的是,模型之间的差异竟然如此之大。”
这些结果为AI版权辩论中的各方都提供了一些论据。对于AI行业的批评者来说,主要的结论是,至少对于某些模型和某些书籍来说,记忆并不是一种边缘现象。
另一方面,这项研究只发现少数流行书籍存在显著的记忆现象。例如,研究人员发现,Llama 3.1 70B只记住了Richard Kadrey在2009年创作的小说《Sandman Slim》的0.13%。这与《哈利·波特》的42%相比,只是一个很小的比例。
这可能会给那些对AI公司提起集体诉讼的律师事务所带来麻烦。Kadrey是针对Meta的集体诉讼中的首席原告。为了证明原告的类别是合理的,法院必须认定原告在法律和事实上处于大致相似的情况。
像这样不同的结果可能会让人怀疑,将J.K. Rowling、Kadrey和其他成千上万的作者放在一个大规模的诉讼中是否合理。这可能对Meta有利,因为大多数作者都没有足够的资源提起个人诉讼。
这项研究更广泛的意义在于,细节将在这些版权案件中发挥重要作用。长期以来,在线讨论将“生成模型是复制训练数据还是仅仅从中学习?”视为一个理论甚至哲学问题。但这是一个可以通过实证检验的问题,而且答案可能因模型和受版权保护的作品而异。
如何衡量记忆
我们经常谈论LLM预测下一个token。但实际上,模型所做的是生成一个概率分布,覆盖下一个token的所有可能性。例如,如果你用“花生酱和”来提示LLM,它会生成一个概率分布,可能如下例所示:
- P(“果冻”) = 70%
- P(“糖”) = 9%
- P(“花生”) = 6%
- P(“巧克力”) = 4%
- P(“奶油”) = 3%
等等。
在模型生成这样的概率列表后,系统会根据概率权重随机选择一个选项。因此,70%的情况下,系统会生成“花生酱和果冻”。9%的情况下,我们会得到“花生酱和糖”。6%的情况下,会是“花生酱和花生”。你明白了。
研究的作者不必生成多个输出来估计特定响应的可能性。相反,他们可以计算每个token的概率,然后将它们相乘。
假设有人想估计模型用“花生酱和果冻”来回应“我最喜欢的的甜点是”的可能性。方法如下:
- 用“我最喜欢的的甜点是”提示模型,并查找“花生酱”的概率(假设是20%)。
- 用“我最喜欢的的甜点是花生酱”提示模型,并查找“和”的概率(假设是90%)。
- 用“我最喜欢的的甜点是花生酱和”提示模型,并查找“果冻”的概率(假设是80%)。
然后,我们只需将概率相乘,如下所示:
- 2 * 0.9 * 0.8 * 0.7 = 0.1008
因此,我们可以预测,模型大约有10%的概率会产生“花生酱和果冻”,而无需实际生成100或1,000个输出,并计算其中有多少是完全相同的短语。
这种技术大大降低了研究成本,使作者能够分析更多的书籍,并使其能够精确地估计非常低的概率。
例如,作者估计,需要超过10万亿个样本才能完全复制某些书籍中的某些50个token的序列。显然,实际生成那么多输出是不切实际的。但这是没有必要的:只需将50个token的概率相乘即可估计概率。
一个需要注意的关键是,概率会非常快地变得非常小。在我虚构的例子中,模型生成四个token“花生酱和果冻”的概率只有10%。如果我们添加更多的token,概率会变得更低。如果我们添加_46个更多的token_,概率可能会下降几个数量级。
对于任何语言模型来说,偶然生成任何给定的50个token序列的可能性都非常小。如果模型生成受版权保护作品中的50个token,那么这有力地证明了这些token“来自”训练数据。即使它只生成这些token 10%、1%或0.01%的时间,也是如此。
我们不知道《哈利·波特》是如何进入Llama模型的
研究作者选择了36本书,并将每本书分成重叠的100个token的段落。使用前50个token作为提示,他们计算了接下来的50个token与原始段落相同的概率。如果模型有大于50%的概率逐字复制该段落,则认为该段落已被“记忆”。
这个定义非常严格。为了使一个50个token的序列具有大于50%的概率,该段落中每个token的平均概率需要至少达到98.5%!此外,作者只计算完全匹配的情况。他们没有尝试计算模型生成原始段落中48或49个token,但弄错了一个或两个token的情况。如果计算这些情况,记忆量会更高。
这项研究提供了有力的证据,表明《哈利·波特与魔法石》的很大一部分被复制到了Llama 3.1 70B的权重中。但这一发现并没有告诉我们为什么或如何发生这种情况。我怀疑部分原因是Llama 3 70B是在15万亿个token上训练的,是Llama 1 65B训练的1.4万亿个token的10倍以上。
模型在特定示例上训练的次数越多,就越有可能记住该示例。也许Meta很难找到15万亿个不同的token,因此它多次在Books3数据集上进行训练。或者,Meta可能添加了第三方来源(如在线哈利·波特粉丝论坛、消费者书籍评论或学生书籍报告),其中包含《哈利·波特》和其他流行书籍的引言。
我不确定这两种解释是否完全符合事实。对于最流行的书籍来说,记忆是一个更大的问题,这表明Llama可能是在引用这些书籍的辅助来源上进行训练,而不是书籍本身。关于哈利·波特的在线讨论可能比Sandman Slim多得多。
另一方面,Llama记忆了_如此多_的《哈利·波特与魔法石》令人惊讶。
Lemley说:“如果是引文,你会期望它集中在一些每个人都引用或谈论的流行事物上。”Llama 3记住了几乎一半的书,这表明整个文本在训练数据中得到了很好的体现。
或者可能有另一种解释。也许Meta在其训练配方中做出了细微的改变,意外地加剧了记忆问题。我上周通过电子邮件联系了Meta征求意见,但尚未收到回复。
Mark Lemley告诉我:“这似乎并非所有流行书籍都是如此。有些流行书籍有这个结果,而另一些则没有。很难提出一个明确的故事来解释为什么会发生这种情况。”
三种责任理论
实际上,有三种不同的理论可以解释为什么在受版权保护的作品上训练模型可能会侵犯版权:
- 在受版权保护的作品上进行训练本质上是侵权的,因为训练过程涉及制作作品的数字副本。
- 训练过程将信息从训练数据复制到模型中,使该模型成为版权法下的衍生作品。
- 当模型生成(部分)受版权保护的作品时,就会发生侵权行为。
到目前为止,很多讨论都集中在第一种理论上,因为它对AI公司最具威胁性。如果法院支持这一理论,那么目前大多数LLM都将是非法的,无论它们是否记住了任何训练数据。
AI行业有一些非常有力的论据,认为_在训练过程中使用受版权保护的作品是合理使用_。但Llama 3.1 70B记住了《哈利·波特》的很大一部分,这可能会影响法院如何考虑这些合理使用问题。
合理使用分析的一个关键部分是使用是否具有“变革性”——公司是否创造了新的东西,或者仅仅是从他人的作品中获利。语言模型能够反刍大量流行作品(如《哈利·波特》、《1984》和《霍比特人》)的事实可能会导致法官对这些合理使用论点持更加怀疑的态度。
此外,谷歌在图书案中的一个关键论点是,其系统的设计目的是永远不会返回任何书籍中的超过一小段摘录。如果Meta诉讼案中的法官想要区分Meta的论点和谷歌在图书案中提出的论点,他可以指出Llama可以生成远远超过几行《哈利·波特》的内容。
这项新研究“使被告在这些案件中一直在讲述的故事变得复杂化”,共同作者Mark Lemley告诉我。“也就是说,‘我们只是学习单词模式。这些都不会出现在模型中。’“
但是,《哈利·波特》的结果甚至给Meta带来了更大的危险,即第二种理论——Llama本身就是Rowling书籍的衍生副本。
Lemley说:“很明显,你实际上可以从模型中提取《哈利·波特》和各种其他书籍的很大一部分。这向我表明,对于其中的一些书籍,模型本身中存在法律所谓的书籍的一部分的副本。”
谷歌图书的先例可能无法保护Meta免受第二种法律理论的侵害,因为谷歌从未将其图书数据库提供给用户下载——如果谷歌这样做,几乎肯定会败诉。
原则上,Meta仍然可以说服法官,允许复制《哈利·波特》的42%是根据灵活的、法官制定的合理使用原则。但这将是一场艰苦的战斗。
“你必须做的合理使用分析不仅仅是‘训练集是否合理使用’,而是‘模型中的整合是否合理使用?’”Lemley说。“这使被告的故事复杂化了。”
Grimmelmann还表示,这项研究可能会使开放权重模型比封闭权重模型面临更大的法律风险。康奈尔大学和斯坦福大学的研究人员只能进行这项工作,因为作者可以访问底层模型,从而可以访问token概率值,从而可以有效地计算token序列的概率。
包括OpenAI、Anthropic和谷歌在内的大多数领先实验室已经越来越多地限制对这些所谓的logits的访问,从而使研究这些模型变得更加困难。
此外,如果一家公司将其模型权重保存在自己的服务器上,则可以使用过滤器来尝试防止侵权输出到达外部世界。因此,即使底层的OpenAI、Anthropic和谷歌模型以与Llama 3.1 70B相同的方式记住了受版权保护的作品,公司外部的任何人可能都很难证明这一点。
此外,这种过滤使拥有封闭权重模型的公司更容易援引谷歌图书的先例。简而言之,版权法可能会对公司发布开放权重模型产生强大的抑制作用。
Mark Lemley告诉我:“这有点反常。我不喜欢这种结果。”
另一方面,法官可能会得出结论,有效地惩罚公司发布开放权重模型是不好的。
Grimmelmann告诉我:“在某种程度上,开放和共享权重是一种公共服务。我可以诚实地看到法官对Meta和其他提供开放权重模型的人持较不怀疑的态度。”