AI发展迎来新契机：法院裁定LLM训练使用版权作品为合理使用

在人工智能（AI）领域，数据是驱动模型发展的核心燃料。近日，美国联邦法院的一项重要裁决为AI的未来发展注入了一剂强心针。该裁决明确指出，使用受版权保护的作品训练大型语言模型（LLM）属于合理使用范畴。这意味着，AI模型可以像人类一样，自由地从书籍等资源中学习，而无需担心侵权风险。这一裁决无疑为AI的创新开辟了更广阔的道路。

该案件源于多位作家对Anthropic公司提起的诉讼，他们指控该公司未经许可，使用其作品训练AI模型。然而，法官的裁决支持了Anthropic的立场，认为这种训练行为类似于人们通过阅读书籍来提升写作能力，是一种合理使用。法官甚至指出，如果作家们的诉讼成立，那么“培养学生写作能力也会导致大量作品涌现”的担忧也将成立。虽然这一裁决是否会被上诉仍未可知，但其对AI发展的积极意义是不容忽视的。（需要声明的是，我并非法律专家，此观点不构成法律建议。）

Court document excerpt supporting fair use of copyrighted books to train LLMs, comparing it to teaching children to write.

尽管AI的发展势头迅猛，但仍面临着一些潜在的风险。其中，以下几点尤为值得关注：

监管捕获：以“AI安全”为名，对创新进行扼杀，特别是对开源领域的限制。
芯片获取受限：尖端半导体芯片的获取受阻，例如，台湾地区爆发战争可能导致芯片供应中断。
数据访问受限：对AI系统训练数据的严格限制。

获取高质量的训练数据至关重要。尽管媒体关注的焦点往往集中在大型数据中心和模型规模的扩大上，但实际上，数据准备工作占据了AI工程师们的大量时间和精力。与那些训练基础模型的朋友交流时，我了解到他们日常面临的挑战主要集中在数据准备上。具体而言，他们需要遵循以数据为中心的AI实践，包括识别高质量数据源（书籍是重要来源之一），清洗数据（例如，Anthropic公司会移除书籍页面的页眉、页脚和页码），进行误差分析以确定需要获取更多哪种类型的数据，以及创造新的方法来生成合成数据。

值得庆幸的是，数据访问方面的一个主要风险已经降低。该裁决还进一步指出，Anthropic公司将纸质书籍转换为数字格式的行为，也是合理使用。然而，对Anthropic公司不利的是，法官表示，虽然使用合法获取的数据进行训练是允许的，但使用盗版材料（例如，从盗版网站下载的文本）则不属于合理使用。因此，Anthropic公司仍可能在这方面承担责任。其他LLM提供商如果使用可能包含盗版作品的数据集，也可能需要重新审视其做法。

我非常理解许多作家对AI可能对其生计产生影响的担忧。我不知道解决这个问题的正确方法。社会可以通过自由访问更多数据而变得更好；但是，如果一部分人受到重大负面影响，我希望我们可以找到一种可以公平地补偿他们的安排。

继续努力！

Andrew

Generative AI for Everyone