AI训练“硬转弯”：版权合理使用边界的明晰与盗版的红线

AI 训练迎来里程碑式判决：合理使用与版权保护的平衡点

近日，美国地方法院法官 William Alsup 作出了一项具有里程碑意义的判决，明确了人工智能（AI）公司在训练其大型语言模型（LLM）时，使用合法获取的书籍无需获得作者许可。这一判决被视为 AI 领域的一大胜利，但同时也对那些试图通过盗版书籍进行 AI 训练的公司敲响了警钟。

AI快讯

案件背景：作者诉 Anthropic

此案源于图书作者对 AI 公司 Anthropic 的指控。Alsup 法官在判决中指出，使用受版权保护的作品来训练 LLM，使其能够生成新的文本，本质上是一种“具有变革意义的”行为，对于构建世界一流的 AI 模型至关重要。他将 AI 模型的学习过程比作学生学习写作，强调其最终目的是创造新的、不同的作品，而非简单地复制或替代原有作品。

判决要点：合理使用原则的适用

Alsup 法官认为，本案与以往涉及 AI 模型复制和传播作者作品的诉讼有所不同。原告作者并未指控 Anthropic 的文本生成器 Claude 复制了他们的作品或表达风格，因此不存在 Claude 在市场上取代作者的风险。这一关键因素使得法院的合理使用分析更有利于 Anthropic。

法官强调，版权法的目的是促进原创作品的创作，而非保护作者免受竞争。他表示，如果作者能够证明 Claude 的输出结果侵犯了他们的版权，他们可以提起新的诉讼。他还提到了另一起案件，其中法官暗示 Meta 的 AI 产品可能正在“摧毁”作者的市场。

盗版问题：Anthropic 面临审判

尽管 Anthropic 对这一判决表示欢迎，并赞扬法院认可了 LLM 训练的变革性，但该公司仍将面临盗版问题的审判。Anthropic 被指控下载了 700 万本盗版书籍，以建立一个研究图书馆，并将这些副本“永久”保存，无论它们是否用于 AI 训练。

Anthropic 试图辩称，即使最初复制这些盗版书籍是“中间”步骤，也是推进 AI 训练这一变革性用途所必需的。该公司还声称，由于它可以借阅其盗取的书籍，因此盗窃行为本身不应“破坏”合理使用分析。然而，Alsup 法官驳斥了这些论点，明确指出从盗版网站复制书籍是侵犯版权的行为。

法官表示，Anthropic 不能仅仅因为某些盗版书籍最终可能用于训练 LLM，就认为使用这些副本建立中央图书馆是合理的。他还对其他涉及盗版的 AI 诉讼能否避免赔偿表示怀疑。Alsup 法官认为，如果侵权者可以购买或以其他方式合法获取源副本，那么从盗版网站下载这些副本的行为本质上就是侵权的，即使这些副本立即用于变革性用途并立即丢弃。

盗版：不可逾越的红线

Alsup 法官明确指出，Anthropic 保留盗版书籍以备将来 AI 训练使用的行为并非变革性的。他批评 Anthropic 试图“快速滑过薄冰”，并指出该公司早期寻求获得作者许可进行训练的尝试失败了，因为内部消息显示，该公司认为窃取书籍是更具成本效益的创新途径。

法官强调，Anthropic 不能认为只要创造出令人兴奋的最终产品，每一个“公众看不见的后端步骤”都可以被原谅。在本案中，盗版的目的是建立一个可以付费购买的中央图书馆，但 Anthropic 选择了不付费的方式。

减轻损失：后续购买的影响

为了避免损失，Anthropic 可能会继续辩称，用购买的书籍替换盗版书籍应能减轻作者的损失。Alsup 法官表示，Anthropic 后来购买了其早期从互联网上窃取的书籍副本，并不能免除其盗窃责任，但可能会影响法定赔偿的范围。

案件的深远影响：AI 发展与版权保护的平衡

Alsup 法官的判决在 AI 领域引起了广泛关注，因为它触及了 AI 发展与版权保护之间长期存在的紧张关系。一方面，AI 公司需要大量的数据来训练其模型，而受版权保护的作品是重要的信息来源。另一方面，作者和出版商担心 AI 训练可能会侵犯他们的版权，并损害他们的市场。

这一判决在一定程度上为 AI 公司使用受版权保护的作品进行训练提供了法律依据，但同时也明确了盗版是不可接受的。它强调了 AI 公司在追求技术创新的同时，必须尊重版权法，并以合法的方式获取数据。

未来展望：持续的争议与探索

尽管 Alsup 法官的判决具有重要意义，但围绕 AI 训练和版权保护的争议远未结束。随着 AI 技术的不断发展，新的法律问题和挑战将不断涌现。未来的法院将需要继续探索和平衡各方利益，以确保 AI 技术的健康发展，同时保护作者和出版商的合法权益。

可以预见的是，AI 公司将继续寻求与作者和出版商合作，以获得合法使用受版权保护作品的许可。同时，作者和出版商也将加强对其作品的版权保护，并探索新的商业模式，以适应 AI 时代的需求。

此外，政府和立法机构也可能需要介入，制定更加明确和全面的法律法规，以规范 AI 训练和版权保护，为 AI 技术的健康发展提供Clear的法律框架。

案例分析：Google Books 案的启示

值得注意的是，Alsup 法官的判决并非孤例。早在 2013 年，美国联邦第二巡回上诉法院就 Google Books 案作出了判决，认定 Google 扫描和索引数百万本受版权保护的书籍，并向公众提供有限的搜索结果，属于合理使用。法院认为，Google Books 项目具有高度的变革性，因为它将书籍数字化，使其更容易被搜索和访问。

然而，Google Books 案也存在一些争议。一些作者和出版商认为，Google Books 项目侵犯了他们的版权，并损害了他们的市场。他们认为，Google 扫描和索引书籍的行为，使得公众可以免费获取其作品的部分内容，从而降低了他们出售书籍的意愿。

尽管存在争议，Google Books 案仍然是版权法发展史上的一个重要里程碑。它表明，在某些情况下，为了促进知识的传播和创新，可以允许对受版权保护的作品进行有限的使用。

数据佐证：AI 训练的数据需求

为了更好地理解 AI 训练和版权保护之间的关系，我们需要了解 AI 训练的数据需求。AI 模型需要大量的数据才能进行训练，才能准确地识别模式、做出预测和生成内容。数据越多，模型的性能就越好。

例如，大型语言模型（LLM）需要数十亿甚至数万亿个单词才能进行训练。这些数据通常来自各种来源，包括书籍、文章、网站、社交媒体帖子等。其中，受版权保护的作品是重要的信息来源，因为它们通常具有高质量的内容和结构。

然而，获取大量的数据并非易事。AI 公司需要花费大量的时间和金钱来收集、清理和标注数据。此外，他们还需要遵守版权法，确保他们有权使用这些数据。

结论：平衡创新与保护

Alsup 法官的判决是 AI 领域的一个重要进展。它为 AI 公司使用受版权保护的作品进行训练提供了法律依据，但同时也明确了盗版是不可接受的。这一判决有助于在 AI 发展和版权保护之间取得平衡，为 AI 技术的健康发展创造良好的法律环境。

然而，围绕 AI 训练和版权保护的争议远未结束。随着 AI 技术的不断发展，新的法律问题和挑战将不断涌现。未来的法院将需要继续探索和平衡各方利益，以确保 AI 技术的健康发展，同时保护作者和出版商的合法权益。