AI发展迎来新机遇：版权裁决扫清障碍，技术创新加速前行

AI发展的重要风险降低：美国联邦法官裁定使用版权作品训练LLM属于合理使用

尊敬的朋友们，

近日，美国地方法院做出了一项重要裁决，认定使用受版权保护的图书来训练大型语言模型（LLM）属于合理使用范畴。这一裁决源于此前多位作家对Anthropic公司提起的诉讼，他们指控该公司未经许可便使用其作品训练AI模型。法官在判决中指出，正如我们允许人们通过阅读书籍来学习写作，但禁止直接复制受版权保护的内容一样，AI模型也可以通过类似的方式学习，而这应被视为合理使用。

法官Alsup进一步评论道，作者们的诉讼与“抱怨培养学生写作能力会导致大量作品涌现”并无本质区别。尽管这一判决是否会被上诉仍有待观察，但其合理性以及对AI发展的积极意义是不言而喻的。（声明：我并非律师，不提供法律建议。）

AI发展面临的潜在风险

当前，人工智能发展势头迅猛，但也面临着一些潜在的风险，这些风险可能会阻碍其前进的步伐：

监管捕获： 以“AI安全”为名，对创新，特别是开源创新进行扼杀。
芯片供应受限： 尤其是在台湾爆发战争的情况下，可能导致无法获得先进的半导体芯片。
数据访问受限： 严格限制用于训练AI系统的数据访问。

优质数据的获取至关重要。尽管大众媒体普遍关注大型数据中心和模型规模的扩大，但与训练基础模型的公司交流时，我了解到他们面临的日常挑战很大一部分在于数据准备。具体而言，他们日常工作的重要组成部分包括：遵循以数据为中心的人工智能实践，识别高质量数据源（书籍是其中重要来源之一），清洗数据（判决中提到Anthropic采取了诸如删除书籍页眉、页脚和页码等措施），进行误差分析以确定需要获取更多的数据类型，以及发明新的方法来生成合成数据。

法院文件摘录，支持使用受版权保护的图书来训练LLM的合理使用，并将其与教孩子写作进行比较

我很高兴数据访问方面的一个主要风险有所降低。此外，判决还指出，Anthropic将图书从纸质格式转换为数字格式（这是进行训练所必需的步骤）也属于合理使用。然而，对Anthropic来说，一个不利的方面是，法官表示，虽然使用合法获取的数据进行训练是可行的，但使用盗版材料（例如从盗版网站下载的文本）则不属于合理使用。因此，Anthropic仍可能在这方面承担责任。其他LLM提供商如果使用可能包含盗版作品的数据集，也可能需要重新审视其做法。

判决的积极影响

我非常同情许多担心自己的生计受到人工智能影响的作家。我不知道正确的解决方案。拥有更多数据的免费访问权限，社会将会变得更好。但是，如果一部分人受到重大不利影响，我希望我们能够找到一种可以公平补偿他们的安排。

继续努力！

Andrew

机器学习和数据科学专业数学。立即注册课程