AI 发展的重要风险已降低
近日,美国联邦法官裁定,使用受版权保护的作品训练大型语言模型(LLM)属于合理使用。这意味着,AI 模型可以像人类一样自由地从书籍中学习。
各位朋友:
本周一,美国地方法院裁定,使用受版权保护的书籍训练 LLM 构成合理使用。此前,一些作家对 Anthropic 公司提起诉讼,指控其未经许可使用他们的书籍训练模型。正如我们允许人们阅读书籍并从中学习,从而成为更优秀的作家一样,但不能逐字逐句地抄袭受版权保护的文本,法官认为,AI 模型这样做也属于合理使用。
事实上,法官 Alsup 写道,作者的诉讼“与他们抱怨训练学童写作良好会导致竞争作品激增没有什么不同。”虽然该裁决是否会被上诉还有待观察,但这一裁决是合理的,并将有利于 AI 的发展。(免责声明:我不是律师,不提供法律建议。)
AI 具有巨大的发展势头,但以下几件事可能会使进展面临风险:
- 监管机构以“AI 安全”为名扼杀创新,尤其是开源。
- 失去获得尖端半导体芯片的机会(最可能的原因是台湾爆发战争)。
- 严重阻碍访问数据以训练 AI 系统的法规。
访问高质量数据非常重要。尽管大众媒体倾向于谈论建设大型数据中心和扩大模型的重要性,但当我与在公司训练基础模型的朋友交谈时,他们中的许多人将大量的日常挑战描述为数据准备。具体而言,他们日常工作中的很大一部分遵循以数据为中心的 AI 实践,即识别高质量数据(书籍是一个重要来源)、清理数据(裁决描述了 Anthropic 采取的步骤,例如删除书籍页眉、页脚和页码)、进行错误分析以找出需要获取更多的数据类型,并创造新的方法来生成合成数据。
我很高兴数据访问的一个主要风险刚刚降低。裁决还适当地指出,Anthropic 将书籍从纸质格式转换为数字格式(这是实现训练所必需的步骤)也属于合理使用。然而,对 Anthropic 来说,一个损失是,法官表示,虽然对合法获取的数据进行训练是可以的,但使用盗版材料(例如从盗版网站下载的文本)不是合理使用。因此,Anthropic 仍可能在这方面承担责任。其他 LLM 提供商现在可能也需要重新审视他们的做法,如果他们使用可能包含盗版作品的数据集。
总的来说,该裁决对 AI 的发展是积极的。也许最大的好处是,它减少了 AI 训练和版权方面的歧义,并且(如果它经受住上诉)使合规路线图更加清晰。该决定表明,可以对合法获得的数据进行训练,以构建生成变革性输出的模型,并且可以将印刷书籍转换为数字格式以用于此目的。但是,从盗版网站下载(以及永久构建“通用”文本库,无限期存储以用于待定的目的,未经相关版权持有人的许可)不被视为合理使用。
我非常同情许多担心自己的生计受到 AI 影响的作家。我不知道正确的解决方案。社会可以通过免费访问更多数据而变得更好;但是,如果一部分人受到重大负面影响,我希望我们可以找到一种公平补偿他们的安排。
继续努力!
Andrew
AI 发展新契机:版权诉讼案判决的影响
法院判决:AI 模型训练使用版权书籍属合理范畴
近期,美国联邦法院就一起备受瞩目的版权诉讼案作出判决,裁定 AI 模型在训练过程中使用受版权保护的书籍属于“合理使用”。这一判决无疑为人工智能领域的发展注入了一剂强心剂,消除了笼罩在 LLM(大型语言模型)头上的一大阴影。该诉讼由多位作家联合发起,指控 Anthropic 公司未经授权便使用他们的作品来训练 AI 模型,侵犯了他们的版权。
法官在判决中明确指出,AI 模型从书籍中学习知识与人类的学习行为并无本质区别。正如我们允许人类通过阅读来提升写作能力,但禁止直接抄袭受版权保护的内容一样,AI 模型在训练过程中对书籍的使用也应被视为合理行为。这一观点得到了 Andrew Ng 的赞同。他认为,此项判决意义重大,为 AI 技术的持续创新扫清了一大障碍。
潜在风险犹存:AI 发展仍面临挑战
尽管此次判决为 AI 发展带来了积极信号,但 Andrew Ng 提醒我们,AI 领域仍面临着一些潜在的风险。他认为,以下三个方面的问题值得我们高度关注:
- 监管过度扼杀创新:部分监管机构可能会以“AI 安全”为借口,对 AI 技术的发展进行过度干预,尤其会扼杀开源领域的创新活力。
- 芯片获取受限:如果因为地缘政治等因素导致无法获得尖端的半导体芯片,AI 技术的进步将会受到严重阻碍。
- 数据访问受限:如果相关法规对 AI 系统访问训练数据进行严格限制,AI 技术的进步也将受到影响。
数据质量至关重要:以数据为中心的 AI 实践
在数据方面,我们往往过于关注数据中心的规模和模型的参数量,而忽略了数据质量的重要性。吴恩达强调,高质量的数据对于 AI 模型的训练至关重要。在与业内人士的交流中,他了解到,许多 AI 公司在日常工作中面临的最大挑战之一就是数据准备。具体而言,他们需要投入大量精力来识别高质量的数据源(例如书籍),清理数据(例如删除书籍的页眉、页脚和页码),进行错误分析以确定需要补充的数据类型,以及探索新的数据合成方法。这种以数据为中心的 AI 实践,对于提升 AI 模型的性能至关重要。
判决的积极影响:消除歧义,明确合规路径
总而言之,法院的判决对 AI 领域的发展具有积极意义。它在一定程度上消除了 AI 训练和版权保护之间的模糊地带,为 AI 开发者指明了合规的道路。判决明确指出,使用合法获取的数据来训练模型以生成具有变革性输出的结果是被允许的,将印刷书籍转换为数字格式以进行模型训练也是合理的。然而,从盗版网站下载数据以及未经版权所有人许可,永久存储大量文本以备将来使用则不属于合理使用。
吴恩达表示,他理解作家们对于 AI 可能对其生计产生影响的担忧。他认为,社会应该允许自由访问更多的数据,但如果某些人的利益因此受到损害,我们需要找到一种公平的补偿机制。
结语:拥抱 AI,砥砺前行
尽管 AI 领域的发展面临着诸多挑战,但我们有理由对未来充满信心。通过持续的技术创新和合理的政策引导,我们一定能够充分发挥 AI 的潜力,为社会带来更大的福祉。
让我们携手努力,共同迎接 AI 时代的到来!