AI福音：美国法院裁定模型训练使用版权书籍属合理使用

AI 发展的重要风险已降低

近日，美国联邦法官裁定，使用受版权保护的作品训练大型语言模型（LLM）属于合理使用。这意味着，AI 模型可以像人类一样自由地从书籍中学习。

法院文件摘录，支持使用受版权保护的书籍训练 LLM 的合理使用，并将其与教孩子写作进行比较。

各位朋友：

本周一，美国地方法院裁定，使用受版权保护的书籍训练 LLM 构成合理使用。此前，一些作家对 Anthropic 公司提起诉讼，指控其未经许可使用他们的书籍训练模型。正如我们允许人们阅读书籍并从中学习，从而成为更优秀的作家一样，但不能逐字逐句地抄袭受版权保护的文本，法官认为，AI 模型这样做也属于合理使用。

事实上，法官 Alsup 写道，作者的诉讼“与他们抱怨训练学童写作良好会导致竞争作品激增没有什么不同。”虽然该裁决是否会被上诉还有待观察，但这一裁决是合理的，并将有利于 AI 的发展。（免责声明：我不是律师，不提供法律建议。）

AI 具有巨大的发展势头，但以下几件事可能会使进展面临风险：

监管机构以“AI 安全”为名扼杀创新，尤其是开源。
失去获得尖端半导体芯片的机会（最可能的原因是台湾爆发战争）。
严重阻碍访问数据以训练 AI 系统的法规。

访问高质量数据非常重要。尽管大众媒体倾向于谈论建设大型数据中心和扩大模型的重要性，但当我与在公司训练基础模型的朋友交谈时，他们中的许多人将大量的日常挑战描述为数据准备。具体而言，他们日常工作中的很大一部分遵循以数据为中心的 AI 实践，即识别高质量数据（书籍是一个重要来源）、清理数据（裁决描述了 Anthropic 采取的步骤，例如删除书籍页眉、页脚和页码）、进行错误分析以找出需要获取更多的数据类型，并创造新的方法来生成合成数据。

我很高兴数据访问的一个主要风险刚刚降低。裁决还适当地指出，Anthropic 将书籍从纸质格式转换为数字格式（这是实现训练所必需的步骤）也属于合理使用。然而，对 Anthropic 来说，一个损失是，法官表示，虽然对合法获取的数据进行训练是可以的，但使用盗版材料（例如从盗版网站下载的文本）不是合理使用。因此，Anthropic 仍可能在这方面承担责任。其他 LLM 提供商现在可能也需要重新审视他们的做法，如果他们使用可能包含盗版作品的数据集。

总的来说，该裁决对 AI 的发展是积极的。也许最大的好处是，它减少了 AI 训练和版权方面的歧义，并且（如果它经受住上诉）使合规路线图更加清晰。该决定表明，可以对合法获得的数据进行训练，以构建生成变革性输出的模型，并且可以将印刷书籍转换为数字格式以用于此目的。但是，从盗版网站下载（以及永久构建“通用”文本库，无限期存储以用于待定的目的，未经相关版权持有人的许可）不被视为合理使用。

我非常同情许多担心自己的生计受到 AI 影响的作家。我不知道正确的解决方案。社会可以通过免费访问更多数据而变得更好；但是，如果一部分人受到重大负面影响，我希望我们可以找到一种公平补偿他们的安排。

继续努力！

Andrew

安德鲁

AI 发展新契机：版权诉讼案判决的影响

法院判决：AI 模型训练使用版权书籍属合理范畴

近期，美国联邦法院就一起备受瞩目的版权诉讼案作出判决，裁定 AI 模型在训练过程中使用受版权保护的书籍属于“合理使用”。这一判决无疑为人工智能领域的发展注入了一剂强心剂，消除了笼罩在 LLM（大型语言模型）头上的一大阴影。该诉讼由多位作家联合发起，指控 Anthropic 公司未经授权便使用他们的作品来训练 AI 模型，侵犯了他们的版权。

法官在判决中明确指出，AI 模型从书籍中学习知识与人类的学习行为并无本质区别。正如我们允许人类通过阅读来提升写作能力，但禁止直接抄袭受版权保护的内容一样，AI 模型在训练过程中对书籍的使用也应被视为合理行为。这一观点得到了 Andrew Ng 的赞同。他认为，此项判决意义重大，为 AI 技术的持续创新扫清了一大障碍。

潜在风险犹存：AI 发展仍面临挑战

尽管此次判决为 AI 发展带来了积极信号，但 Andrew Ng 提醒我们，AI 领域仍面临着一些潜在的风险。他认为，以下三个方面的问题值得我们高度关注：

监管过度扼杀创新：部分监管机构可能会以“AI 安全”为借口，对 AI 技术的发展进行过度干预，尤其会扼杀开源领域的创新活力。
芯片获取受限：如果因为地缘政治等因素导致无法获得尖端的半导体芯片，AI 技术的进步将会受到严重阻碍。
数据访问受限：如果相关法规对 AI 系统访问训练数据进行严格限制，AI 技术的进步也将受到影响。

数据质量至关重要：以数据为中心的 AI 实践

在数据方面，我们往往过于关注数据中心的规模和模型的参数量，而忽略了数据质量的重要性。吴恩达强调，高质量的数据对于 AI 模型的训练至关重要。在与业内人士的交流中，他了解到，许多 AI 公司在日常工作中面临的最大挑战之一就是数据准备。具体而言，他们需要投入大量精力来识别高质量的数据源（例如书籍），清理数据（例如删除书籍的页眉、页脚和页码），进行错误分析以确定需要补充的数据类型，以及探索新的数据合成方法。这种以数据为中心的 AI 实践，对于提升 AI 模型的性能至关重要。

判决的积极影响：消除歧义，明确合规路径

吴恩达表示，他理解作家们对于 AI 可能对其生计产生影响的担忧。他认为，社会应该允许自由访问更多的数据，但如果某些人的利益因此受到损害，我们需要找到一种公平的补偿机制。

结语：拥抱 AI，砥砺前行

尽管 AI 领域的发展面临着诸多挑战，但我们有理由对未来充满信心。通过持续的技术创新和合理的政策引导，我们一定能够充分发挥 AI 的潜力，为社会带来更大的福祉。

让我们携手努力，共同迎接 AI 时代的到来！