AI发展迎来新契机:法院裁定LLM训练使用版权作品为合理使用

1

在人工智能(AI)领域,数据是驱动模型发展的核心燃料。近日,美国联邦法院的一项重要裁决为AI的未来发展注入了一剂强心针。该裁决明确指出,使用受版权保护的作品训练大型语言模型(LLM)属于合理使用范畴。这意味着,AI模型可以像人类一样,自由地从书籍等资源中学习,而无需担心侵权风险。这一裁决无疑为AI的创新开辟了更广阔的道路。

该案件源于多位作家对Anthropic公司提起的诉讼,他们指控该公司未经许可,使用其作品训练AI模型。然而,法官的裁决支持了Anthropic的立场,认为这种训练行为类似于人们通过阅读书籍来提升写作能力,是一种合理使用。法官甚至指出,如果作家们的诉讼成立,那么“培养学生写作能力也会导致大量作品涌现”的担忧也将成立。虽然这一裁决是否会被上诉仍未可知,但其对AI发展的积极意义是不容忽视的。(需要声明的是,我并非法律专家,此观点不构成法律建议。)

Court document excerpt supporting fair use of copyrighted books to train LLMs, comparing it to teaching children to write.

尽管AI的发展势头迅猛,但仍面临着一些潜在的风险。其中,以下几点尤为值得关注:

  1. 监管捕获:以“AI安全”为名,对创新进行扼杀,特别是对开源领域的限制。
  2. 芯片获取受限:尖端半导体芯片的获取受阻,例如,台湾地区爆发战争可能导致芯片供应中断。
  3. 数据访问受限:对AI系统训练数据的严格限制。

获取高质量的训练数据至关重要。尽管媒体关注的焦点往往集中在大型数据中心和模型规模的扩大上,但实际上,数据准备工作占据了AI工程师们的大量时间和精力。与那些训练基础模型的朋友交流时,我了解到他们日常面临的挑战主要集中在数据准备上。具体而言,他们需要遵循以数据为中心的AI实践,包括识别高质量数据源(书籍是重要来源之一),清洗数据(例如,Anthropic公司会移除书籍页面的页眉、页脚和页码),进行误差分析以确定需要获取更多哪种类型的数据,以及创造新的方法来生成合成数据。

值得庆幸的是,数据访问方面的一个主要风险已经降低。该裁决还进一步指出,Anthropic公司将纸质书籍转换为数字格式的行为,也是合理使用。然而,对Anthropic公司不利的是,法官表示,虽然使用合法获取的数据进行训练是允许的,但使用盗版材料(例如,从盗版网站下载的文本)则不属于合理使用。因此,Anthropic公司仍可能在这方面承担责任。其他LLM提供商如果使用可能包含盗版作品的数据集,也可能需要重新审视其做法。

总的来说,这项裁决对AI的发展具有积极意义。它减少了AI训练和版权方面的模糊性,并为合规性提供了更清晰的路径。该裁决表明,使用合法获取的数据来构建生成变革性输出的模型,以及将印刷书籍转换为数字格式以用于训练,都是可以接受的。然而,从盗版网站下载数据,以及未经相关版权所有者许可,永久构建用于未来目的的“通用”文本库,则不被认为是合理使用。

我非常理解许多作家对AI可能对其生计产生影响的担忧。我不知道解决这个问题的正确方法。社会可以通过自由访问更多数据而变得更好;但是,如果一部分人受到重大负面影响,我希望我们可以找到一种可以公平地补偿他们的安排。

继续努力!

Andrew

Generative AI for Everyone