引言:AI时代的版权迷局
在人工智能技术飞速发展的今天,生成式AI模型在内容创作领域的应用日益广泛。然而,随之而来的版权问题也日益凸显。最近的一项研究表明,Meta AI模型在一定程度上能够重现《哈利·波特》系列书籍的内容,这无疑给生成式AI的版权诉讼带来了新的挑战。本文将深入探讨这一研究发现,并分析其对AI行业和版权保护的潜在影响。
研究背景:AI模型与版权侵权
近年来,关于AI模型训练过程中使用受版权保护材料的争议不断。包括书籍、报纸、计算机代码和照片的出版商在内的众多原告,纷纷起诉AI公司,指控其在未经授权的情况下使用受版权保护的内容来训练模型。这些诉讼的核心问题在于,AI模型在多大程度上能够产生与原告受版权保护内容完全一致的摘录。
例如,《纽约时报》在2023年12月对OpenAI提起的诉讼中,就列举了大量GPT-4模型精准复制《纽约时报》文章段落的案例。OpenAI对此回应称,这是一种“边缘行为”,公司正在努力解决这个问题。然而,事实果真如此吗?AI公司是否已经有效地解决了这个问题?
一项新的研究,将焦点从报纸文章转向书籍,并考察了不同公司的AI模型,为我们提供了关于这个问题的全新视角。研究结果既为原告的观点提供了支持,也可能对被告有利。
研究发现:Meta Llama 3.1模型的记忆能力
这项研究由斯坦福大学、康奈尔大学和西弗吉尼亚大学的计算机科学家和法学学者组成的团队于上个月发表。他们研究了五种流行的开源模型——Meta的三种模型、微软的一种模型和EleutherAI的一种模型——是否能够重现Books3中的文本。Books3是一个广泛用于训练大型语言模型(LLM)的书籍集合,其中许多书籍仍在版权保护期内。
研究中最引人注目的发现是关于Meta的Llama 3.1 70B模型。该模型于2024年7月发布,是Meta的中型模型。研究表明,与其他四个模型相比,Llama 3.1 70B模型重现《哈利·波特与魔法石》文本的可能性要高得多。
具体而言,该研究估计,Llama 3.1 70B模型已经“记住”了《哈利·波特与魔法石》的42%的内容,能够以至少一半的概率重现50个token的摘录。相比之下,Meta于2023年2月发布的类似规模的Llama 1 65B模型,仅记住了《哈利·波特与魔法石》的4.4%。这表明,尽管存在潜在的法律责任,Meta在训练Llama 3时并未采取足够的措施来防止模型记忆训练数据。至少对于这本书而言,从Llama 1到Llama 3,情况变得更糟。
研究人员测试了数十本书籍,发现Llama 3.1 70B模型更容易重现热门书籍,如《霍比特人》和乔治·奥威尔的《1984》,而不是冷门书籍。对于大多数书籍,Llama 3.1 70B模型记忆的内容都比其他模型多。
康奈尔大学法学教授James Grimmelmann表示:“不同模型在记忆文本方面的差异非常显著。”
研究结果的意义:版权辩论的新焦点
研究结果为AI版权辩论的各方都提供了可供利用的论据。对于AI行业的批评者来说,这项研究表明,至少对于某些模型和某些书籍而言,记忆并非一种边缘现象。另一方面,该研究仅发现少量热门书籍存在显著的记忆现象。例如,研究人员发现,Llama 3.1 70B模型仅记住了0.13%的Richard Kadrey于2009年创作的小说《Sandman Slim》。这与《哈利·波特》42%的记忆比例形成了鲜明对比。
对于那些针对AI公司提起集体诉讼的律师事务所来说,这可能是一个令人头疼的问题。Kadrey是针对Meta提起集体诉讼的首席原告。要获得原告资格,法院必须认定原告在很大程度上处于相似的法律和事实情况下。像这样不同的结果可能会让人怀疑,将J.K. Rowling、Kadrey和其他数千名作者归入同一集体诉讼是否有意义。这可能对Meta有利,因为大多数作者缺乏提起个人诉讼的资源。
这项研究更广泛的意义在于,细节将在这些版权案件中发挥重要作用。长期以来,网络讨论将“生成模型是复制训练数据,还是仅仅从中学习?”视为一个理论甚至哲学问题。但这是一个可以通过实证检验的问题,而且答案可能因模型和受版权保护的作品而异。
研究方法:如何衡量模型的记忆能力
通常,我们认为LLM是在预测下一个token。但实际上,模型所做的是生成一个概率分布,涵盖下一个token的所有可能性。例如,如果你用“花生酱和”来提示一个LLM,它会回复一个概率分布,可能如下所示:
- P(“果冻”) = 70%
- P(“糖”) = 9%
- P(“花生”) = 6%
- P(“巧克力”) = 4%
- P(“奶油”) = 3%
- 以此类推。
在模型生成这样的概率列表后,系统会根据概率随机选择一个选项。因此,70%的时间系统会生成“花生酱和果冻”,9%的时间会生成“花生酱和糖”,6%的时间会生成“花生酱和花生”,以此类推。
研究的作者不必生成多个输出来估计特定响应的可能性。相反,他们可以计算每个token的概率,然后将它们相乘。
假设有人想估计模型用“花生酱和果冻”来回应“我最喜欢的 sandwich 是”的可能性。方法如下:
- 用“我最喜欢的 sandwich 是”提示模型,并查找“花生”的概率(假设为20%)。
- 用“我最喜欢的 sandwich 是花生”提示模型,并查找“酱”的概率(假设为90%)。
- 用“我最喜欢的 sandwich 是花生酱”提示模型,并查找“和”的概率(假设为 80%)。
- 用“我最喜欢的 sandwich 是花生酱和”提示模型,并查找“果冻”的概率(假设为 70%)。
然后,我们只需将概率相乘,如下所示:
- 2 * 0.9 * 0.8 * 0.7 = 0.1008
因此,我们可以预测,模型大约有10%的时间会产生“花生酱和果冻”,而无需实际生成100或1000个输出并计算其中有多少个是这个确切的短语。
这种技术大大降低了研究的成本,使作者能够分析更多的书籍,并使精确估计非常低的概率成为可能。
例如,作者估计,要精确重现某些书籍中的某些50个token的序列,需要超过10万亿个样本。显然,实际生成如此多的输出是不现实的。但这是没有必要的:只需将50个token的概率相乘即可估计概率。
需要注意的关键一点是,概率会非常快地变得非常小。在我的虚构示例中,模型将产生四个token“花生酱和果冻”的概率仅为10%。如果我们添加更多的token,概率会变得更低。如果我们添加_46个token_,概率可能会下降几个数量级。
对于任何语言模型,偶然生成任何给定的50个token序列的概率都非常小。如果模型从受版权保护的作品中生成50个token,那么这有力地证明这些token“来自”训练数据。即使它仅以10%、1%或0.01%的概率生成这些token,也是如此。
模型如何学习《哈利·波特》?
研究作者选取了36本书,并将每本书分成重叠的100个token的段落。使用前50个token作为提示,他们计算了接下来50个token与原始段落相同的概率。如果模型有大于50%的概率逐字逐句地重现一个段落,他们就认为该段落被“记住”了。
这个定义非常严格。为了使一个50个token的序列的概率大于50%,段落中平均每个token的概率需要至少达到98.5%!此外,作者只计算完全匹配的情况。他们没有尝试计算模型生成原始段落中的48或49个token,但错误地生成了一个或两个token的情况。如果将这些情况也计算在内,记忆量会更高。
这项研究提供了强有力的证据,表明《哈利·波特与魔法石》的很大一部分内容被复制到了Llama 3.1 70B模型的权重中。但这一发现并没有告诉我们为什么或如何发生这种情况。我怀疑部分原因在于Llama 3 70B模型是在15万亿个token上训练的,是Llama 1 65B模型所用的1.4万亿个token的10倍以上。
一个模型在特定示例上训练的次数越多,它就越有可能记住该示例。或许Meta在寻找15万亿个不同的token时遇到了麻烦,因此它多次在Books3数据集上进行训练。或者,Meta可能添加了第三方来源,如在线哈利·波特粉丝论坛、消费者书籍评论或学生书籍报告,其中包括来自《哈利·波特》和其他热门书籍的引用。
我不确定这两种解释是否完全符合事实。最受欢迎的书籍的记忆问题更为严重,这一事实表明Llama可能是在引用这些书籍的二级来源上进行训练的,而不是在书籍本身上进行训练的。在线关于哈利·波特的讨论可能比关于Sandman Slim的讨论呈指数级增长。
另一方面,Llama记住了《哈利·波特与魔法石》的_如此多_内容,这令人惊讶。
Lemley说:“如果是引文和引语,你可能会期望它集中在一些每个人都引用或谈论的热门事物上。”Llama 3记住了几乎一半的书,这一事实表明整个文本在训练数据中得到了很好的体现。
或者可能有完全不同的解释。或许Meta对其训练配方进行了细微的更改,意外地加剧了记忆问题。我上周通过电子邮件联系Meta征求意见,但尚未收到回复。
Mark Lemley告诉我:“似乎并非所有热门书籍都是如此。一些热门书籍出现了这种结果,而另一些则没有。很难提出一个清晰的说法来解释为什么会发生这种情况。”
三种责任理论
实际上,关于在受版权保护的作品上训练模型如何侵犯版权,有三种不同的理论:
- 在受版权保护的作品上进行训练本质上是侵权的,因为训练过程涉及制作该作品的数字副本。
- 训练过程将训练数据中的信息复制到模型中,使该模型成为版权法下的衍生作品。
- 当模型生成(部分)受版权保护的作品时,就会发生侵权。
到目前为止,很多讨论都集中在第一种理论上,因为它对AI公司最具威胁性。如果法院支持这一理论,那么大多数当前的LLM都将是非法的,无论它们是否记住了任何训练数据。
AI行业有一些非常有力的论据,认为在训练过程中使用受版权保护的作品是合理使用,这符合2015年Google Books判决。但Llama 3.1 70B模型记住了《哈利·波特》的很大一部分内容,这可能会影响法院如何考虑这些合理使用问题。
合理使用分析的一个关键部分是使用是否具有“变革性”——一家公司是创造了新的东西,还是仅仅从他人的作品中获利。语言模型能够回吐《哈利·波特》、《1984》和《霍比特人》等热门作品的相当一部分内容,这可能会导致法官对这些合理使用论点持更加怀疑的态度。
此外,谷歌在图书案中的一个关键论点是,其系统旨在永远不会返回任何图书的超过一小段摘录。如果Meta诉讼案中的法官想要将Meta的论点与谷歌在图书案中提出的论点区分开来,他可以指出Llama可以生成远不止几行《哈利·波特》的内容。
这项新研究“使被告在这些案件中一直在讲述的故事变得复杂化”,合著者Mark Lemley告诉我。“也就是说,‘我们只是学习单词模式。没有这些内容会出现在模型中。’”
但哈利·波特的结果甚至给Meta带来了更大的危险,因为根据第二种理论,Llama本身就是Rowling图书的衍生副本。
Lemley说:“很明显,你可以从模型中提取《哈利·波特》和各种其他书籍的很大一部分内容。”“这向我表明,可能对于其中的一些书籍,模型本身中存在法律上所谓的图书一部分的副本。”
谷歌图书的先例可能无法保护Meta免受第二种法律理论的侵害,因为谷歌从未让用户下载其图书数据库——如果谷歌这样做,几乎肯定会败诉。
原则上,Meta仍然可以使法官相信,根据灵活的、法官制定的合理使用原则,复制《哈利·波特》的42%是被允许的。但这将是一场艰苦的战斗。
Lemley说:“你必须做的合理使用分析不仅仅是‘训练集是否合理使用’,而是‘模型中的整合是否合理使用?’”“这使被告的故事变得复杂化。”
Grimmelmann还表示,这项研究可能会使开源模型比封闭模型面临更大的法律风险。康奈尔大学和斯坦福大学的研究人员只能完成他们的工作,因为作者可以访问底层模型,因此可以访问token概率值,从而可以有效地计算token序列的概率。
包括OpenAI、Anthropic和谷歌在内的大多数领先实验室,越来越多地限制对这些所谓的logits的访问,从而使研究这些模型变得更加困难。
此外,如果一家公司将其模型权重保留在自己的服务器上,则可以使用过滤器来尝试防止侵权输出到达外部世界。因此,即使底层的OpenAI、Anthropic和谷歌模型以与Llama 3.1 70B相同的方式记住了受版权保护的作品,公司外部的任何人可能都很难证明这一点。
此外,这种过滤使拥有封闭模型的公司更容易援引谷歌图书的先例。简而言之,版权法可能会对公司发布开源模型产生很大的抑制作用。
Mark Lemley告诉我:“这有点不正常。我不喜欢这种结果。”
另一方面,法官可能会得出结论,惩罚公司发布开源模型是不好的。
Grimmelmann告诉我:“在某种程度上,开放和共享权重是一种公共服务。”“我真的可以看到法官对Meta和其他提供开源模型的公司不太怀疑。”
结论:AI版权的未来之路
生成式AI的快速发展给版权保护带来了前所未有的挑战。Meta Llama 3.1模型重现《哈利·波特》部分内容的研究表明,AI模型可能在一定程度上记忆训练数据,这引发了对AI模型版权侵权责任的担忧。未来的AI版权诉讼将更加注重细节,并需要对不同模型和不同作品进行具体分析。同时,如何在鼓励AI技术创新的同时,保护版权所有者的权益,将是法律和技术领域需要共同探索的重要课题。