AI训练版权争议：美国法官裁定使用受版权保护书籍训练LLM属于合理使用

在人工智能技术迅猛发展的今天，数据获取一直是制约AI进步的关键因素之一。近日，美国联邦法官的一项裁决为这一难题提供了重要解决方案，认定使用受版权保护的书籍训练大型语言模型(LLM)属于合理使用，这一决定可能为AI发展扫清重大障碍。

裁决的核心内容

美国地区法官William Alsup在2025年6月23日作出了一项具有里程碑意义的裁决，认为Anthropic公司使用受版权保护的书籍训练其AI模型的行为构成合理使用。这一裁决针对的是多位作者对Anthropic提起的诉讼，这些作者指控该公司未经许可使用他们的书籍训练AI模型。

法官在裁决中明确表示，这一情况"与作者们抱怨训练学校儿童写作良好会导致竞争作品激增没有区别"。这一类比将AI模型学习书籍类比为人类学习写作的过程，认为AI可以像人类一样从书籍中学习，但不能逐字复制受版权保护的内容。

合理使用的界定

裁决详细阐述了AI训练中合理使用的边界：

数据转换的合法性：将书籍从纸质格式转换为数字格式以进行训练被认定为合理使用
数据处理的合规性：Anthropic采取的移除书籍页眉、页脚和页号等数据处理步骤被视为合理
盗版材料的排除：明确指出从盗版网站下载的材料不属于合理使用范围

这一界定为AI公司提供了明确的法律指引，同时也设定了清晰的合规边界。

对AI行业的积极影响

这一裁决对AI行业的发展具有多重积极意义：

减少法律风险

AI训练长期面临版权法律风险，这一裁决显著降低了这一风险。正如Andrew Ng在文章中指出的："我非常高兴数据获取的一个主要风险刚刚降低"。这一决定为AI公司提供了更大的法律确定性，使他们能够更专注于技术创新而非法律纠纷。

明确合规路径

裁决最大的益处之一是减少了AI训练与版权之间的模糊性，(如果上诉维持原判)使合规路线图更加清晰。这一决定表明，使用合法获取的数据训练模型以生成变革性输出是可行的，为这一目的将印刷书籍转换为数字格式也是合理的。

促进数据获取

高质量数据的获取对AI训练至关重要。尽管媒体通常关注建设大型数据中心和扩展模型规模，但许多基础模型训练公司的日常挑战主要集中在数据准备上。这一裁决确保了AI公司能够继续获取高质量的书籍数据，这是高质量训练数据的重要来源之一。

数据在AI训练中的关键作用

Andrew Ng在文章中强调了数据在AI训练中的核心地位：

"当我与训练基础模型公司的朋友交谈时，他们描述的大部分日常挑战都是数据准备。具体来说，他们日常工作的重要部分遵循通常的数据中心AI实践：识别高质量数据(书籍是重要来源之一)、清理数据(裁决描述了Anthropic采取的移除书籍页眉、页脚和页号等步骤)、进行错误分析以确定需要获取更多类型的数据，以及发明生成合成数据的新方法。"

这一观点揭示了AI训练中数据准备工作的重要性，远超公众通常认知的程度。书籍作为高质量、结构化的文本数据源，对提升AI模型的语言理解和生成能力具有不可替代的作用。

裁决的限制与挑战

尽管这一裁决总体上对AI行业有利，但也存在一些限制和潜在挑战：

盗版材料的明确排除

裁决明确指出，使用盗版材料(如从盗版网站下载的文本)不属于合理使用。这意味着Anthropic和其他LLM提供商如果使用可能包含盗版作品的数据集，现在可能需要重新审视其做法。

作者权益的考量

Andrew Ng在文章中表达了对创作者权益的关注：

"我非常同情许多担心自己的生计受到AI影响的作家。我不知道正确的解决方案是什么。社会有更好的条件可以自由获取更多数据；但如果一部分人受到显著负面影响，我希望我们能找到一种公平补偿他们的安排。"

这一观点反映了AI发展中技术创新与创作者权益保护之间需要寻求平衡的挑战。

行业反应与未来展望

这一裁决预计将在AI行业引起广泛反响：

法律环境的稳定性：为AI训练提供了更稳定的法律环境，减少了不确定性
数据获取的便利性：使AI公司能够更便捷地获取高质量训练数据
合规标准的明确化：为行业设定了明确的合规标准，特别是在数据获取和使用方面
创新激励：通过减少法律障碍，进一步激励AI技术的创新和应用

然而，这一裁决也可能面临上诉，其最终效力仍有待观察。此外，随着AI技术的不断发展，版权法与AI训练之间的关系可能需要进一步的立法和司法调整。

技术进步与法律框架的平衡

这一裁决凸显了技术进步与法律框架之间需要保持动态平衡的重要性。一方面，法律需要为技术创新提供空间，避免过度限制阻碍进步；另一方面，法律也需要保护创作者的权益，确保创新建立在尊重知识产权的基础上。

AI训练数据与版权关系图

在这一平衡中，合理使用原则提供了一个灵活的框架，使法律能够适应技术发展的需求。通过明确AI训练中使用受版权保护材料的边界，法院为技术创新提供了必要的法律确定性，同时也保护了创作者的合法权益。

结论

美国法官的这一裁决代表了AI发展中一个重要里程碑，它通过明确AI训练中使用受版权保护材料的合法性，为AI行业提供了更清晰的发展路径。这一决定不仅解决了AI行业面临的数据获取法律风险，还为AI训练数据的合法性提供了更明确的方向。

然而，这一裁决也提醒我们，AI技术的发展需要在创新与权益保护之间寻求平衡。随着AI技术的不断进步，法律框架也需要持续调整，以确保技术发展与社会利益之间的和谐共存。

对于AI行业而言，这一裁决是一个积极信号，表明法律体系正在努力适应技术发展的需求。对于创作者而言，这也提示我们需要思考如何在AI时代保护自己的权益，同时也不阻碍技术的进步。只有在创新与权益保护之间找到平衡点，AI技术才能真正实现其变革潜力，为社会带来更广泛的价值。