Meta AI模型陷版权风波:Llama 3.1竟能复现半部《哈利·波特》?

0

在人工智能领域,版权问题一直备受关注。近日,一篇发表在Ars Technica上的文章揭示了Meta公司的人工智能模型Llama 3.1在未经授权的情况下,能够重现《哈利·波特与魔法石》近一半的内容。这项研究不仅对生成式AI的版权诉讼产生了重大影响,也引发了关于AI模型训练数据和版权保护的深刻讨论。

AI模型与版权侵权

近年来,包括图书出版商、报纸、计算机代码和摄影作品在内的众多原告纷纷起诉AI公司,指控它们使用受版权保护的材料训练模型。这些诉讼的核心问题在于,AI模型在多大程度上能够准确地复制原告受版权保护的内容。

例如,《纽约时报》在2023年12月起诉OpenAI的案件中,提供了大量GPT-4精确复制《纽约时报》文章片段的案例。OpenAI对此辩称,这是一种“边缘行为”,并表示公司正在努力解决这个问题。然而,新的研究表明,AI模型复制训练数据的现象可能比想象的更为普遍。

Llama 3.1的惊人表现

斯坦福大学、康奈尔大学和西弗吉尼亚大学的计算机科学家和法学学者组成的研究团队,对五种流行的开源模型进行了研究,其中包括Meta的三种模型、Microsoft的一种模型以及EleutherAI的一种模型。研究人员测试了这些模型再现Books3文本的能力,Books3是一个广泛用于训练LLM的图书集合,其中许多图书仍受版权保护。

研究结果显示,Meta公司于2024年7月发布的Llama 3.1 70B模型,比其他四种模型更容易重现《哈利·波特与魔法石》的文本。具体来说,该模型能够以至少50%的概率重现书中50个token的片段,研究人员估计Llama 3.1 70B已经记住了这本书42%的内容。

AI快讯

相比之下,2023年2月发布的类似规模的Llama 1 65B模型,仅记住了《哈利·波特与魔法石》的4.4%。这表明,尽管存在潜在的法律责任,Meta在训练Llama 3时并未采取足够的措施来防止记忆化。至少对于这本书来说,问题在Llama 1和Llama 3之间变得更加严重。

研究人员还发现,Llama 3.1 70B更容易重现《霍比特人》和乔治·奥威尔的《1984》等热门书籍,而不是冷门书籍。对于大多数书籍,Llama 3.1 70B的记忆量都超过了其他模型。

康奈尔大学法学教授James Grimmelmann表示:“不同模型在记忆文本方面存在显著差异。”

斯坦福大学法学教授Mark Lemley也对研究结果感到惊讶。Lemley曾经是Meta法律团队的一员,但在Facebook采取了对特朗普更友好的审核政策后,于1月份放弃了Meta作为客户。他表示:“我们预计会看到某种程度的低水平可复制性,大约在1%或2%左右。令我惊讶的第一件事是,这种差异有多大。”

对版权诉讼的影响

这项研究为AI版权辩论的各方都提供了论据。对于AI行业的批评者来说,重要的结论是,至少对于某些模型和某些书籍而言,记忆化并非一种边缘现象。另一方面,研究只发现少数流行书籍存在显著的记忆化现象。例如,研究人员发现Llama 3.1 70B只记住了Richard Kadrey在2009年创作的小说《Sandman Slim》的0.13%。

对于针对AI公司的集体诉讼来说,这可能是一个麻烦。Kadrey是针对Meta的集体诉讼的首席原告。要获得原告类别认证,法院必须认定原告在很大程度上处于相似的法律和事实情况下。这种不同的结果可能会让人怀疑将J.K. Rowling、Kadrey和其他数千名作者归入单一的大规模诉讼是否有意义。这可能对Meta有利,因为大多数作者缺乏提起个人诉讼的资源。

这项研究更广泛的意义在于,细节将在这些版权案件中发挥重要作用。长期以来,网络讨论将“生成模型是复制其训练数据,还是仅仅从中学习?”视为一个理论甚至哲学问题。但这是一个可以通过经验检验的问题,答案可能因模型和受版权保护的作品而异。

记忆化的测量方法

通常,我们会讨论LLM预测下一个token。但实际上,模型所做的是生成下一个token的所有可能性的概率分布。例如,如果您用“花生酱和”提示LLM,它将以一个概率分布做出响应,如下例所示:

  • P(“果冻”) = 70%
  • P(“糖”) = 9%
  • P(“花生”) = 6%
  • P(“巧克力”) = 4%
  • P(“奶油”) = 3%

依此类推。

在模型生成这样的概率列表后,系统会根据其概率随机选择其中一个选项。因此,70%的时间,系统将生成“花生酱和果冻”。9%的时间,我们会得到“花生酱和糖”。6%的时间,它将是“花生酱和花生”。

研究人员不必生成多个输出来估计特定响应的可能性。相反,他们可以计算每个token的概率,然后将它们相乘。

假设有人想估计模型用“花生酱和果冻”响应“我最喜欢的食物是”的概率。方法如下:

  • 用“我最喜欢的食物是”提示模型,并查找“花生”的概率(假设为20%)。
  • 用“我最喜欢的食物是花生”提示模型,并查找“酱”的概率(假设为90%)。
  • 用“我最喜欢的食物是花生酱”提示模型,并查找“和”的概率(假设为80%)。
  • 用“我最喜欢的食物是花生酱和”提示模型,并查找“果冻”的概率(假设为70%)。

然后,我们只需要像这样将概率相乘:

  1. 2 * 0.9 * 0.8 * 0.7 = 0.1008

因此,我们可以预测模型大约有10%的时间会生成“花生酱和果冻”,而无需实际生成100或1,000个输出并计算其中有多少是这个确切的短语。

这项技术大大降低了研究成本,使作者能够分析更多的书籍,并使其能够精确地估计非常低的概率。

例如,作者估计,需要超过10万亿个样本才能精确地重现某些书籍中的某些50个token的序列。显然,实际生成那么多的输出是不可能的。但这是不必要的:只需将50个token的概率相乘即可估计概率。

一个需要注意的关键是,概率会非常快地变得非常小。在示例中,模型将产生四个token“花生酱和果冻”的概率仅为10%。如果我们添加更多的token,概率会更低。如果我们再添加_46个token_,概率可能会下降几个数量级。

对于任何语言模型,偶然生成任何给定的50个token序列的概率都非常小。如果模型生成受版权保护的作品中的50个token,则有力的证据表明这些token“来自”训练数据。即使它只生成这些token的10%、1%或0.01%的时间,也是如此。

《哈利·波特》如何进入Llama模型?

研究作者选取了36本书,并将每本书分成重叠的100个token段落。使用前50个token作为提示,他们计算了接下来50个token与原始段落相同的概率。如果模型重现段落的概率大于50%,则他们将该段落计为“已记忆”。

这个定义非常严格。对于概率大于50%的50个token序列,段落中每个token的平均概率需要至少为98.5%! 此外,作者只计算了完全匹配的情况。他们没有尝试计算模型生成原始段落中48或49个token,但一个或两个token错误的情况。如果计算这些情况,记忆量会更高。

这项研究提供了强有力的证据,表明《哈利·波特与魔法石》的很大一部分被复制到了Llama 3.1 70B的权重中。但是,这一发现并没有告诉我们为什么或如何发生这种情况。我怀疑部分原因是Llama 3 70B接受了15万亿个token的训练,是用于训练Llama 1 65B的1.4万亿个token的10倍以上。

一个模型在特定示例上训练的次数越多,它就越有可能记住该示例。也许Meta在寻找15万亿个不同的token时遇到了麻烦,因此它多次在Books3数据集上进行了训练。或者,Meta可能添加了第三方来源,例如在线哈利·波特粉丝论坛、消费者图书评论或学生图书报告,其中包括《哈利·波特》和其他流行书籍的引言。

我不确定这些解释是否完全符合事实。最受欢迎的书籍的记忆化问题更大这一事实表明,Llama可能接受了引用这些书籍的辅助来源的训练,而不是书籍本身。在线上关于《哈利·波特》的讨论可能比《Sandman Slim》多得多。

另一方面,Llama记住了《哈利·波特与魔法石》的这么多内容令人惊讶。

Lemley说:“如果是引文和引言,您会期望它集中在每个人都引用或谈论的少数流行事物周围。” Llama 3记住了几乎一半的书这一事实表明,整个文本在训练数据中得到了很好的体现。

或者可能还有另一种解释。也许Meta在其训练配方中进行了细微的更改,从而意外地加剧了记忆化问题。我上周通过电子邮件发送给Meta征求意见,但尚未收到回复。

Lemley告诉我:“似乎并非所有流行的书籍都是如此。” “有些流行的书籍有这种结果,而另一些则没有。很难提出一个明确的故事来说明为什么会发生这种情况。”

三种责任理论

实际上,关于在受版权保护的作品上训练模型如何侵犯版权,有三种不同的理论:

  1. 在受版权保护的作品上进行训练本质上是侵权的,因为训练过程涉及制作作品的数字副本。
  2. 训练过程将训练数据中的信息复制到模型中,从而使模型成为版权法下的衍生作品。
  3. 当模型生成受版权保护的作品(的某些部分)时,就会发生侵权。

到目前为止,很多讨论都集中在第一种理论上,因为它对AI公司最具威胁。如果法院支持这一理论,那么无论当前的LLM是否记住了任何训练数据,它们中的大多数都将是非法的。

AI行业有一些非常有力的论据,认为在训练过程中使用受版权保护的作品是合理使用,符合2015年Google图书裁决。但是,Llama 3.1 70B记住了《哈利·波特》的大部分内容可能会影响法院如何考虑这些合理使用问题。

合理使用分析的关键部分是使用是否具有“变革性”,即公司是否创造了新的东西,或者仅仅是从他人的工作中获利。语言模型能够反刍《哈利·波特》、《1984》和《霍比特人》等流行作品的很大一部分,可能会导致法官对这些合理使用论点持更加怀疑的态度。

此外,谷歌在图书案中的一个关键论点是,其系统的设计目的是永远不会返回任何一本书的超过一小段摘录。如果Meta诉讼中的法官想将Meta的论点与谷歌在图书案中提出的论点区分开来,他可以指出Llama可以生成远远超过几行《哈利·波特》的内容。

这项新研究“使被告在这些案件中讲述的故事变得复杂化”,共同作者Mark Lemley告诉我。“也就是说,‘我们只是学习单词模式。这些都没有在模型中显示出来。’”

但是,《哈利·波特》的结果甚至使Meta面临第二种理论的更大危险,即Llama本身是Rowling书籍的衍生副本。

Lemley说:“很明显,实际上可以从模型中提取《哈利·波特》和各种其他书籍的很大一部分。” “这向我表明,对于其中一些书籍,可能存在法律上所谓的模型本身中的部分书籍的副本。”

Google图书的先例可能无法保护Meta免受第二种法律理论的侵害,因为Google从未将其图书数据库提供给用户下载,如果Google这样做,几乎肯定会败诉。

原则上,Meta仍然可以说服法官,根据灵活的、法官制定的合理使用原则,允许复制《哈利·波特》的42%。但这将是一场艰苦的战斗。

“您必须进行的合理使用分析不仅是‘训练集是否合理使用’,而是‘模型中的合并是否合理使用?’” Lemley说。“这使被告的故事复杂化。”

Grimmelmann还说,这项研究可能会使开放权重模型比封闭权重模型面临更大的法律风险。康奈尔大学和斯坦福大学的研究人员只能完成他们的工作,因为作者可以访问底层模型,因此可以访问token概率值,从而可以有效地计算token序列的概率。

包括OpenAI、Anthropic和Google在内的大多数领先实验室都越来越多地限制对这些所谓的logits的访问,从而使研究这些模型变得更加困难。

此外,如果一家公司将其模型权重保留在自己的服务器上,则可以使用过滤器来尝试防止侵权输出到达外界。因此,即使底层OpenAI、Anthropic和Google模型以与Llama 3.1 70B相同的方式记住了受版权保护的作品,公司外部的任何人也可能难以证明这一点。

此外,这种过滤使拥有封闭权重模型的公司更容易援引Google图书的先例。简而言之,版权法可能会对公司发布开放权重模型产生强大的抑制作用。

Lemley告诉我:“这有点反常。” “我不喜欢这种结果。”

另一方面,法官可能会得出结论,惩罚公司发布开放权重模型是不利的。

Grimmelmann告诉我:“在某种程度上,开放和共享权重是一种公共服务。” “我确实可以诚实地看到法官对Meta和其他提供开放权重模型的公司不太怀疑。”