AI训练使用书籍判决：合理使用边界与版权保护的新思考

人工智能训练使用书籍的合理使用裁决：转折点还是终点？

近日，美国地区法官威廉·阿尔苏普做出了一项具有里程碑意义的裁决，明确了人工智能公司在训练其大型语言模型（LLM）时，使用合法获取的书籍无需获得作者的许可。这一裁决被视为人工智能领域的一大胜利，但同时也向那些期望在盗版书籍上进行训练的人工智能公司发出了警告。

AI快讯

法院的判决依据

阿尔苏普法官在审理图书作者起诉人工智能公司Anthropic的案件中，认为使用受版权保护的作品来训练LLM，以生成新的文本，本质上是一种“变革性”的使用，并且对于构建世界级的人工智能模型是“必要的”。这一判决与之前的一些诉讼有所不同，之前的诉讼主要集中在人工智能模型是否会复制和传播作者的作品。由于原告作者未能证明Anthropic的文本生成器Claude会复制其作品或表达风格，因此法官认为Anthropic的模型不会取代作者在市场上的地位。

阿尔苏普法官在判决中写道：“就像任何渴望成为作家的读者一样，Anthropic的LLM接受作品的训练，不是为了竞相复制或取代它们，而是为了实现一个艰难的转折，创造出不同的东西。”

作者的失望与未来的可能性

这一裁决无疑让作者们感到失望，他们认为Claude对他们文本的依赖可能会生成具有竞争力的摘要或替代版本的故事。法官驳斥了这些担忧，认为这类似于争辩说“训练学童写好文章会导致竞争作品的爆炸式增长。”

阿尔苏普法官表示：“这不是《版权法》所关心的那种竞争性或创造性取代。该法案旨在推进原创作品的创作，而不是保护作者免受竞争。”

不过，法官也指出，如果作者们发现Claude的输出存在侵权证据，他们可以提出新的索赔。正如最近一位法官暗示的那样，这可能会改变合理使用的计算方式，即Meta的人工智能产品可能会“摧毁”作者的作品市场。

阿尔苏普法官写道：“作者承认，训练LLM并没有导致向公众提供任何完全相同或甚至侵犯其作品的仿制品。如果情况并非如此，这将是一个不同的案件。如果未来出现这种情况，作者仍然可以自由地提起诉讼。”

Anthropic面临的盗版指控

Anthropic公司对这一裁决表示“高兴”，并发表声明称赞法院承认“使用作品训练LLM具有变革性——非常壮观”。

然而，Anthropic并未完全摆脱困境。虽然它获得了关于人工智能训练作为合理使用的即决判决，但仍面临着关于盗版的审判。阿尔苏普法官裁定，盗版行为不支持合理使用。

在该案件中，Anthropic被指控下载了700万本盗版书籍，以建立一个研究图书馆，无论这些书籍是否用于人工智能训练，都会“永久”保存副本。Anthropic公司似乎意识到盗版可能会引发法律挑战，后来试图用合法购买的副本来替换盗版书籍。但该公司还辩称，即使最初复制这些盗版书籍也是推进人工智能训练的变革性用途所必需的“中间”步骤。Anthropic还认为，因为它本可以借阅它所盗窃的书籍，所以盗窃行为本身不应“中断”合理使用分析。

但阿尔苏普法官并未被这些论点所动摇，他指出，从盗版网站复制书籍是侵犯版权的行为，“完全停止”。他驳斥了“Anthropic的假设，即使用副本作为中央图书馆可以被认为是合理使用，仅仅因为其中一些最终将被用于训练LLM”，并且他对其他正在辩论盗版行为的人工智能诉讼是否能够免于支付损害赔偿金表示怀疑。

阿尔苏普法官写道：“本命令怀疑任何被指控的侵权者都能够满足其解释为什么从盗版网站下载源副本（它可以购买或以其他方式合法访问）本身对于任何后续的合理使用是合理必要的负担。”

但他表示，Anthropic的案件可能甚至不需要对此做出决定，因为Anthropic保留盗版书籍用于其研究图书馆本身并不具有变革性。阿尔苏普法官写道，Anthropic辩称保留其盗版的潜在人工智能训练材料，以备将来决定将其用于人工智能训练，这是一种试图“快速滑过薄冰”的行为。

此外，阿尔苏普法官指出，Anthropic早期获得授权以训练作者作品的尝试失败了，因为内部消息显示，该公司认为窃取书籍是更具成本效益的创新途径，“以避免‘法律/实践/业务上的苦差事’，正如联合创始人兼首席执行官达里奥·阿莫代伊所说的那样。”

阿尔苏普法官写道：“Anthropic认为，只要你创造出一个令人兴奋的最终产品，每一个‘公众看不到的后端步骤’都会被原谅，这是错误的。在这里，盗版才是关键：建立一个可以付费的中央图书馆，就像Anthropic后来所做的那样，但无需为此付费。”

阿尔苏普法官的命令表明，为了避免在败诉时遭受最大程度的损害，Anthropic可能会继续辩称，用购买的书籍替换盗版书籍应该会削弱作者的斗争。

阿尔苏普法官指出：“Anthropic后来购买了它早些时候从互联网上窃取的书籍副本，这不会免除其盗窃责任，但可能会影响法定损害赔偿的程度。”

Photo of Ashley Belanger

结论

总的来说，此次判决在人工智能领域具有重要意义。它厘清了人工智能训练使用书籍的合理使用范围，为人工智能公司的发展提供了法律保障。然而，判决也强调了版权保护的重要性，警示人工智能公司不得通过盗版等非法手段获取训练数据。未来，人工智能公司需要在合法合规的前提下，探索更多创新的人工智能训练方法，以实现人工智能技术的健康发展。

人工智能技术的快速发展对版权保护提出了新的挑战。如何在促进技术创新的同时，保护作者的合法权益，是未来需要进一步探讨和解决的问题。此次判决为我们提供了一个重要的参考，但同时也需要我们在实践中不断完善和发展相关的法律法规，以适应人工智能时代的需求。

随着人工智能技术的不断进步，我们有理由相信，人工智能将在各个领域发挥越来越重要的作用。同时，我们也需要保持警惕，确保人工智能的发展符合伦理和法律的要求，为人类社会带来福祉。