AI发展迎来新机遇:版权裁决扫清障碍,技术创新加速前行

2

AI发展的重要风险降低:美国联邦法官裁定使用版权作品训练LLM属于合理使用

尊敬的朋友们,

近日,美国地方法院做出了一项重要裁决,认定使用受版权保护的图书来训练大型语言模型(LLM)属于合理使用范畴。这一裁决源于此前多位作家对Anthropic公司提起的诉讼,他们指控该公司未经许可便使用其作品训练AI模型。法官在判决中指出,正如我们允许人们通过阅读书籍来学习写作,但禁止直接复制受版权保护的内容一样,AI模型也可以通过类似的方式学习,而这应被视为合理使用。

法官Alsup进一步评论道,作者们的诉讼与“抱怨培养学生写作能力会导致大量作品涌现”并无本质区别。尽管这一判决是否会被上诉仍有待观察,但其合理性以及对AI发展的积极意义是不言而喻的。(声明:我并非律师,不提供法律建议。)

AI发展面临的潜在风险

当前,人工智能发展势头迅猛,但也面临着一些潜在的风险,这些风险可能会阻碍其前进的步伐:

  1. 监管捕获: 以“AI安全”为名,对创新,特别是开源创新进行扼杀。
  2. 芯片供应受限: 尤其是在台湾爆发战争的情况下,可能导致无法获得先进的半导体芯片。
  3. 数据访问受限: 严格限制用于训练AI系统的数据访问。

优质数据的获取至关重要。尽管大众媒体普遍关注大型数据中心和模型规模的扩大,但与训练基础模型的公司交流时,我了解到他们面临的日常挑战很大一部分在于数据准备。具体而言,他们日常工作的重要组成部分包括:遵循以数据为中心的人工智能实践,识别高质量数据源(书籍是其中重要来源之一),清洗数据(判决中提到Anthropic采取了诸如删除书籍页眉、页脚和页码等措施),进行误差分析以确定需要获取更多的数据类型,以及发明新的方法来生成合成数据。

法院文件摘录,支持使用受版权保护的图书来训练LLM的合理使用,并将其与教孩子写作进行比较

我很高兴数据访问方面的一个主要风险有所降低。此外,判决还指出,Anthropic将图书从纸质格式转换为数字格式(这是进行训练所必需的步骤)也属于合理使用。然而,对Anthropic来说,一个不利的方面是,法官表示,虽然使用合法获取的数据进行训练是可行的,但使用盗版材料(例如从盗版网站下载的文本)则不属于合理使用。因此,Anthropic仍可能在这方面承担责任。其他LLM提供商如果使用可能包含盗版作品的数据集,也可能需要重新审视其做法。

判决的积极影响

总的来说,这项裁决对人工智能的进步具有积极意义。也许最大的好处是,它减少了人工智能训练和版权方面的不确定性,并且(如果它经受住上诉)使合规路线图更加清晰。该决定表明,可以利用合法获取的数据来构建生成变革性输出的模型,并且可以将印刷书籍转换为数字格式以用于此目的。但是,从盗版网站下载(以及未经相关版权所有者许可,永久构建用于确定目的的“通用”文本库)不被认为是合理使用。

我非常同情许多担心自己的生计受到人工智能影响的作家。我不知道正确的解决方案。拥有更多数据的免费访问权限,社会将会变得更好。但是,如果一部分人受到重大不利影响,我希望我们能够找到一种可以公平补偿他们的安排。

继续努力!

Andrew

机器学习和数据科学专业数学。立即注册课程