AI发展的重要风险已降低
美国联邦法官裁定,使用受版权保护的作品训练大型语言模型(LLM)属于合理使用。这意味着AI模型可以像人类一样自由地从书籍中学习。
2025年6月25日发布,阅读时间2分钟。
亲爱的朋友们,
本周一,美国地方法院裁定,使用受版权保护的书籍训练LLM构成合理使用。此前,一些作者对Anthropic公司提起诉讼,指控其未经许可使用他们的书籍训练模型。正如我们允许人们阅读书籍并从中学习,从而成为更优秀的作家一样,但不能逐字逐句地 regurgitate 受版权保护的文本,法官认为,AI模型这样做也是合理使用。
事实上,法官Alsup写道,作者的诉讼“与他们抱怨培养小学生写作能力会导致大量竞争作品涌现没有什么不同。”虽然该裁决是否会被上诉还有待观察,但这一裁决是合理的,并且对AI的进步有益。(免责声明:我不是律师,不提供法律建议。)
AI具有巨大的发展势头,但一些因素可能会使进展面临风险:
- 监管机构的捕获可能会扼杀创新,尤其是在“AI安全”的幌子下扼杀开源。
- 失去对尖端半导体芯片的访问(最可能的原因是台湾爆发战争)。
- 严重阻碍访问用于训练AI系统的数据的法规。
访问高质量的数据非常重要。尽管大众媒体倾向于谈论构建大型数据中心和扩展模型的重要性,但当我和在训练基础模型的公司中的朋友交谈时,许多人将他们日常挑战的大部分描述为数据准备。具体来说,他们日常工作的一大部分遵循通常的数据中心AI实践,即识别高质量数据(书籍是一个重要的来源),清理数据(裁决描述了Anthropic采取的步骤,例如删除书籍页眉、页脚和页码),进行错误分析以确定要获取更多哪种类型的数据,以及发明生成合成数据的新方法。
我很高兴对数据访问的主要风险刚刚降低。适当的是,该裁决进一步表示,Anthropic将书籍从纸质格式转换为数字格式(这是实现培训所需的一步)也是合理使用。但是,对于Anthropic来说,一个损失是,法官表示,虽然对合法获取的数据进行培训是可以的,但是使用盗版材料(例如从盗版网站下载的文本)不是合理使用。因此,Anthropic仍可能在这方面承担责任。其他LLM提供商现在也可能需要重新审视其做法,如果他们使用可能包含盗版作品的数据集。
总的来说,该裁决对AI的进步是积极的。也许最大的好处是,它减少了AI培训和版权方面的歧义,并且(如果经受住上诉)使合规路线图更加清晰。该决定表明,可以对合法获得的数据进行培训,以构建生成变革性输出的模型,并将印刷书籍转换为数字格式以达到此目的。但是,从盗版网站下载(以及永久构建“通用”文本库,无限期存储以用于待定的目的,而未经相关版权所有者的许可)不被认为是合理使用。
我非常同情许多担心自己的生计受到AI影响的作家。我不知道正确的解决方案。社会可以通过免费访问更多数据来变得更好。但是,如果有一部分人受到严重不利影响,我希望我们可以找到一种可以公平补偿他们的方式。
继续建设!
Andrew