AI发展迎来新机遇：美国法院裁定LLM使用版权作品训练属于合理使用

近日，美国联邦法官做出了一项具有里程碑意义的裁决，明确指出使用受版权保护的作品来训练大型语言模型（LLM）属于合理使用范畴。这一裁决无疑为人工智能的进一步发展扫清了一大障碍，使得AI模型能够像人类一样，自由地从书籍等知识载体中学习。

法院裁决：AI模型学习书籍如同人类

美国地方法院于2025年6月25日正式裁定，允许AI模型在未经授权的情况下，使用受版权保护的书籍进行训练。这一裁决源于多位作家对Anthropic公司提起的诉讼，他们指控该公司未经许可便使用其作品训练AI模型。然而，法官在判决中明确指出，正如我们允许人类通过阅读书籍来提升写作能力，但禁止其原封不动地复制受版权保护的文本一样，AI模型也可以合理地利用书籍进行学习。

法院文件摘录，支持使用受版权保护的书籍训练LLM的合理使用，并将其与教孩子写作进行比较

法官Alsup进一步强调，作者们的诉讼与指责“训练学生写作会导致大量竞争作品涌现”并无本质区别。尽管这一裁决是否会被上诉仍有待观察，但其合理性以及对AI发展的积极影响是不容忽视的。需要特别说明的是，笔者并非法律专业人士，因此以上观点不构成任何法律建议。

AI发展面临的潜在风险

尽管AI的发展势头强劲，但仍存在一些潜在风险可能会阻碍其前进的步伐：

监管俘获：以“AI安全”为名，实则扼杀创新，特别是开源领域的创新。
芯片供应受限：最可能的原因是台湾地区爆发战争，导致无法获得先进的半导体芯片。
数据访问受限：严格限制AI系统训练所需数据的获取。

其中，高质量数据的获取至关重要。尽管大众媒体普遍关注大型数据中心的建设和模型规模的扩大，但在与训练基础模型的公司交流时，我了解到他们面临的日常挑战更多集中在数据准备上。具体而言，他们的大部分工作都遵循以数据为中心的AI实践，包括识别高质量数据（书籍是重要的来源之一）、清理数据（裁决中提到Anthropic采取了诸如删除书籍页面标题、页脚和页码等措施）、进行误差分析以确定需要获取更多的数据类型，以及创新合成数据的方法。

数据为王：高质量数据是AI发展的基石

在AI模型的训练过程中，数据的质量往往比数量更为重要。高质量的数据能够帮助模型更快地学习到有用的知识，从而提高模型的性能和泛化能力。例如，在自然语言处理领域，使用高质量的文本数据训练的语言模型，能够更好地理解和生成人类语言，从而在机器翻译、文本摘要、对话生成等任务中表现出色。

此外，数据的多样性也至关重要。只有当模型接触到足够多的不同类型的数据时，才能更好地适应各种复杂的场景。例如，在图像识别领域，使用包含各种不同物体、光照条件和拍摄角度的图像数据训练的模型，能够更准确地识别出图像中的物体。

因此，对于AI开发者来说，获取和准备高质量的数据是至关重要的任务。这不仅需要投入大量的时间和精力，还需要具备专业的数据处理和分析能力。

数据准备：AI模型训练的关键环节

数据准备是AI模型训练过程中至关重要的环节，它直接影响着模型的性能和泛化能力。数据准备通常包括以下几个步骤：

数据收集：从各种渠道收集原始数据，例如网络爬虫、传感器、数据库等。
数据清洗：去除原始数据中的噪声、错误和不一致性，例如缺失值、异常值、重复数据等。
数据转换：将原始数据转换为适合模型训练的格式，例如文本分词、图像缩放、特征编码等。
数据增强：通过对原始数据进行一系列变换，生成新的训练数据，例如图像旋转、裁剪、翻转等。
数据标注：为原始数据添加标签或注释，以便模型能够学习到数据的含义，例如图像分类、文本标注、语音识别等。

在数据准备过程中，需要根据具体的任务和数据类型，选择合适的方法和工具。例如，在文本数据处理中，常用的工具包括NLTK、SpaCy、Gensim等；在图像数据处理中，常用的工具包括OpenCV、PIL、TensorFlow等。

法院裁决的积极意义

我很高兴看到数据访问方面的一个主要风险有所降低。裁决进一步指出，Anthropic将书籍从纸质格式转换为数字格式（这是实现训练所必需的步骤）也属于合理使用。然而，对Anthropic不利的是，法官表示，虽然使用合法获取的数据进行训练是可以的，但使用盗版材料（例如从盗版网站下载的文本）不属于合理使用。因此，Anthropic仍可能在这方面承担责任。其他LLM提供商如果使用可能包含盗版作品的数据集，现在也可能需要重新审视其做法。

我非常同情许多担心自己的生计受到AI影响的作家。我不知道正确的解决方案。社会可以通过自由访问更多数据而变得更好；但是，如果一部分人受到重大负面影响，我希望我们能够找到一种可以公平地补偿他们的安排。

AI时代：版权保护与技术发展的平衡

在AI技术快速发展的今天，如何平衡版权保护与技术发展之间的关系，成为了一个亟待解决的问题。一方面，我们需要保护创作者的权益，鼓励他们创作出更多优秀的作品；另一方面，我们也要为AI技术的发展提供必要的空间，使其能够更好地服务于社会。

这项法院裁决，无疑为我们提供了一个有益的参考。它明确指出，在一定条件下，使用受版权保护的作品进行AI训练是合理合法的。这既有利于AI技术的发展，也有利于保护创作者的权益。

当然，这并不意味着我们可以随意使用受版权保护的作品。我们需要遵守相关的法律法规，尊重创作者的劳动成果。只有在合理合法的范围内使用数据，才能确保AI技术的健康发展。

AI的未来：机遇与挑战并存

AI作为一项颠覆性技术，正在深刻地改变着我们的生活和工作方式。它为我们带来了前所未有的机遇，同时也带来了许多挑战。

在机遇方面，AI可以帮助我们提高生产效率、改善医疗服务、优化交通运输、创新教育模式等等。它可以让我们更好地理解世界、更好地解决问题、更好地创造价值。

在挑战方面，AI可能会导致失业、加剧不平等、侵犯隐私、威胁安全等等。它可能会让我们失去控制、失去自主、失去尊严。

因此，我们需要认真思考AI的未来，制定合理的政策和措施，确保AI技术能够为人类带来福祉，而不是灾难。

结论

本次法院的裁决无疑是为AI发展注入了一剂强心针，在合理使用版权数据的大前提下，AI技术的发展将迎来新的高峰。然而，我们也不能忽视AI发展过程中可能存在的风险，只有在充分的思考和准备下，才能确保AI技术能够健康、可持续地发展，为人类创造更加美好的未来。

Keep building!

Andrew