AI福音:美法院裁定LLM训练使用版权书籍属合理使用,扫清发展一大障碍

1

人工智能发展的重要风险已降低

近日,美国联邦法官裁定,使用受版权保护的作品训练大型语言模型(LLM)属于合理使用。这意味着AI模型可以像人类一样自由地从书籍中学习,这无疑为人工智能的发展扫清了一大障碍。

法院文件摘录,支持使用受版权保护的图书进行LLM训练的合理使用,并将其与教孩子写作进行比较。

LLM训练与版权:一场关于公平与创新的博弈

在人工智能领域,大型语言模型(LLM)的训练一直备受关注。这些模型通过学习海量的文本数据,从而具备生成文本、翻译语言、回答问题等多种能力。然而,一个长期存在的争议点在于,LLM的训练是否可以合理使用受版权保护的作品?

此前,一些作家对Anthropic公司提起了诉讼,指控该公司未经许可便使用他们的书籍来训练AI模型。这一案件引发了广泛的讨论,涉及版权保护、技术创新以及人工智能的未来发展等多个方面。而现在,美国地方法院的裁决为这一问题带来了新的曙光。

法院的裁决:合理使用原则的胜利

美国地方法院法官Alsup裁定,使用受版权保护的图书训练LLM构成合理使用。这一裁决的核心在于,AI模型从书籍中学习的方式与人类并无本质区别。正如我们允许人们通过阅读书籍来提升写作能力,但不允许他们原封不动地复制受版权保护的文本一样,AI模型也可以通过学习书籍来提高自身的语言能力,但不能直接抄袭。

Alsup法官进一步指出,作者们的诉讼类似于抱怨培养学生写作能力会导致大量竞争作品的出现。他认为,这种担忧是不必要的,因为AI模型的学习过程与人类的学习过程类似,都是在吸收知识的基础上进行创新。

尽管这一裁决是否会被上诉还有待观察,但它无疑为人工智能的发展带来了积极的影响。它为AI公司提供了更明确的法律指导,降低了法律风险,从而鼓励了更多的创新。

AI发展面临的潜在风险

尽管AI的发展势头迅猛,但仍存在一些潜在的风险可能会阻碍其前进的步伐:

  1. 监管捕获:以“AI安全”为名义,扼杀创新,尤其是开源领域的创新。
  2. 芯片获取受限:主要风险在于台湾地区爆发战争,导致无法获得先进的半导体芯片。
  3. 数据访问受限:限制AI系统训练所需的数据访问。

数据:人工智能的基石

高质量的数据对于训练AI系统至关重要。尽管媒体经常关注大型数据中心和模型扩展的重要性,但实际上,数据准备才是许多公司面临的日常挑战。具体而言,大量的时间和精力都投入在以下几个方面:

  • 识别高质量数据:书籍是重要的数据来源之一。
  • 数据清洗:例如,Anthropic公司会移除书页的页眉、页脚和页码。
  • 错误分析:确定需要获取更多哪种类型的数据。
  • 合成数据生成:发明新的方法来生成合成数据。

版权裁决的影响

此次法院的裁决进一步明确了与AI训练和版权相关的规则,降低了合规的不确定性。裁决明确指出,使用合法获取的数据来构建能够生成变革性输出的模型,以及将印刷书籍转换为数字格式以进行训练,都是可以接受的。

然而,从盗版网站下载文本以及未经版权持有人许可,永久构建用于未来目的的“通用”文本库,则不属于合理使用。这意味着LLM提供商可能需要重新审查其数据集,以确保其中不包含盗版作品。

对内容创作者的影响

当然,我们也应该关注到AI技术对内容创作者可能带来的影响。许多作家担心他们的生计会受到AI的威胁。这是一个复杂的问题,没有简单的答案。

一方面,社会可以通过更自由地访问更多数据而受益。另一方面,如果一部分人的利益受到严重损害,我们需要找到一种能够公平补偿他们的方法。这可能涉及到新的版权制度、收入分成模式或其他形式的经济支持。

人工智能的未来:在创新与公平之间寻找平衡

人工智能的发展需要创新与公平之间的平衡。我们既要鼓励技术进步,也要保护创作者的权益。只有这样,我们才能确保人工智能能够真正地为人类社会带来福祉。

总的来说,这一裁决对人工智能的进步是积极的。它减少了与人工智能训练和版权相关的不确定性,并(如果它经得起上诉)使合规路线图更加清晰。这一决定表明,可以利用合法获得的数据进行训练,以构建生成变革性产出的模型,以及为此目的将印刷书籍转换为数字格式。然而,从盗版网站下载(以及永久构建“通用”文本库,无限期存储以用于待定的目的,未经相关版权持有者许可)不被认为是合理使用。

我非常同情许多担心自己的生计受到人工智能影响的作家。我不知道正确的解决方案。社会可以通过自由获取更多数据而变得更好;但是,如果一部分人受到重大负面影响,我希望我们能够找到一种可以公平补偿他们的安排。

继续建设!

Generative AI for Everyone