AI发展迎来新机遇:美国法院裁定LLM使用版权作品训练属于合理使用

1

近日,美国联邦法官做出了一项具有里程碑意义的裁决,明确指出使用受版权保护的作品来训练大型语言模型(LLM)属于合理使用范畴。这一裁决无疑为人工智能的进一步发展扫清了一大障碍,使得AI模型能够像人类一样,自由地从书籍等知识载体中学习。

法院裁决:AI模型学习书籍如同人类

美国地方法院于2025年6月25日正式裁定,允许AI模型在未经授权的情况下,使用受版权保护的书籍进行训练。这一裁决源于多位作家对Anthropic公司提起的诉讼,他们指控该公司未经许可便使用其作品训练AI模型。然而,法官在判决中明确指出,正如我们允许人类通过阅读书籍来提升写作能力,但禁止其原封不动地复制受版权保护的文本一样,AI模型也可以合理地利用书籍进行学习。

法院文件摘录,支持使用受版权保护的书籍训练LLM的合理使用,并将其与教孩子写作进行比较

法官Alsup进一步强调,作者们的诉讼与指责“训练学生写作会导致大量竞争作品涌现”并无本质区别。尽管这一裁决是否会被上诉仍有待观察,但其合理性以及对AI发展的积极影响是不容忽视的。需要特别说明的是,笔者并非法律专业人士,因此以上观点不构成任何法律建议。

AI发展面临的潜在风险

尽管AI的发展势头强劲,但仍存在一些潜在风险可能会阻碍其前进的步伐:

  1. 监管俘获:以“AI安全”为名,实则扼杀创新,特别是开源领域的创新。
  2. 芯片供应受限:最可能的原因是台湾地区爆发战争,导致无法获得先进的半导体芯片。
  3. 数据访问受限:严格限制AI系统训练所需数据的获取。

其中,高质量数据的获取至关重要。尽管大众媒体普遍关注大型数据中心的建设和模型规模的扩大,但在与训练基础模型的公司交流时,我了解到他们面临的日常挑战更多集中在数据准备上。具体而言,他们的大部分工作都遵循以数据为中心的AI实践,包括识别高质量数据(书籍是重要的来源之一)、清理数据(裁决中提到Anthropic采取了诸如删除书籍页面标题、页脚和页码等措施)、进行误差分析以确定需要获取更多的数据类型,以及创新合成数据的方法。

数据为王:高质量数据是AI发展的基石

在AI模型的训练过程中,数据的质量往往比数量更为重要。高质量的数据能够帮助模型更快地学习到有用的知识,从而提高模型的性能和泛化能力。例如,在自然语言处理领域,使用高质量的文本数据训练的语言模型,能够更好地理解和生成人类语言,从而在机器翻译、文本摘要、对话生成等任务中表现出色。

此外,数据的多样性也至关重要。只有当模型接触到足够多的不同类型的数据时,才能更好地适应各种复杂的场景。例如,在图像识别领域,使用包含各种不同物体、光照条件和拍摄角度的图像数据训练的模型,能够更准确地识别出图像中的物体。

因此,对于AI开发者来说,获取和准备高质量的数据是至关重要的任务。这不仅需要投入大量的时间和精力,还需要具备专业的数据处理和分析能力。

数据准备:AI模型训练的关键环节

数据准备是AI模型训练过程中至关重要的环节,它直接影响着模型的性能和泛化能力。数据准备通常包括以下几个步骤:

  1. 数据收集:从各种渠道收集原始数据,例如网络爬虫、传感器、数据库等。
  2. 数据清洗:去除原始数据中的噪声、错误和不一致性,例如缺失值、异常值、重复数据等。
  3. 数据转换:将原始数据转换为适合模型训练的格式,例如文本分词、图像缩放、特征编码等。
  4. 数据增强:通过对原始数据进行一系列变换,生成新的训练数据,例如图像旋转、裁剪、翻转等。
  5. 数据标注:为原始数据添加标签或注释,以便模型能够学习到数据的含义,例如图像分类、文本标注、语音识别等。

在数据准备过程中,需要根据具体的任务和数据类型,选择合适的方法和工具。例如,在文本数据处理中,常用的工具包括NLTK、SpaCy、Gensim等;在图像数据处理中,常用的工具包括OpenCV、PIL、TensorFlow等。

法院裁决的积极意义

我很高兴看到数据访问方面的一个主要风险有所降低。裁决进一步指出,Anthropic将书籍从纸质格式转换为数字格式(这是实现训练所必需的步骤)也属于合理使用。然而,对Anthropic不利的是,法官表示,虽然使用合法获取的数据进行训练是可以的,但使用盗版材料(例如从盗版网站下载的文本)不属于合理使用。因此,Anthropic仍可能在这方面承担责任。其他LLM提供商如果使用可能包含盗版作品的数据集,现在也可能需要重新审视其做法。

总的来说,这项裁决对AI的进步是积极的。也许最大的好处是,它减少了AI训练和版权方面的不确定性,并且(如果它经受住上诉)使合规的路线图更加清晰。这项决定表明,可以利用合法获取的数据进行训练,以构建生成变革性输出的模型,并且可以将印刷书籍转换为数字格式以实现此目的。但是,从盗版网站下载(以及永久构建“通用”文本库,无限期存储以用于待定的目的,而未经相关版权所有者的许可)不被认为是合理使用。

我非常同情许多担心自己的生计受到AI影响的作家。我不知道正确的解决方案。社会可以通过自由访问更多数据而变得更好;但是,如果一部分人受到重大负面影响,我希望我们能够找到一种可以公平地补偿他们的安排。

AI时代:版权保护与技术发展的平衡

在AI技术快速发展的今天,如何平衡版权保护与技术发展之间的关系,成为了一个亟待解决的问题。一方面,我们需要保护创作者的权益,鼓励他们创作出更多优秀的作品;另一方面,我们也要为AI技术的发展提供必要的空间,使其能够更好地服务于社会。

这项法院裁决,无疑为我们提供了一个有益的参考。它明确指出,在一定条件下,使用受版权保护的作品进行AI训练是合理合法的。这既有利于AI技术的发展,也有利于保护创作者的权益。

当然,这并不意味着我们可以随意使用受版权保护的作品。我们需要遵守相关的法律法规,尊重创作者的劳动成果。只有在合理合法的范围内使用数据,才能确保AI技术的健康发展。

AI的未来:机遇与挑战并存

AI作为一项颠覆性技术,正在深刻地改变着我们的生活和工作方式。它为我们带来了前所未有的机遇,同时也带来了许多挑战。

在机遇方面,AI可以帮助我们提高生产效率、改善医疗服务、优化交通运输、创新教育模式等等。它可以让我们更好地理解世界、更好地解决问题、更好地创造价值。

在挑战方面,AI可能会导致失业、加剧不平等、侵犯隐私、威胁安全等等。它可能会让我们失去控制、失去自主、失去尊严。

因此,我们需要认真思考AI的未来,制定合理的政策和措施,确保AI技术能够为人类带来福祉,而不是灾难。

结论

本次法院的裁决无疑是为AI发展注入了一剂强心针,在合理使用版权数据的大前提下,AI技术的发展将迎来新的高峰。然而,我们也不能忽视AI发展过程中可能存在的风险,只有在充分的思考和准备下,才能确保AI技术能够健康、可持续地发展,为人类创造更加美好的未来。

Keep building!

Andrew