AI发展的重要风险降低:美国联邦法官裁定版权作品训练LLM为合理使用
近日,美国联邦法官裁定,使用受版权保护的作品训练大型语言模型(LLM)属于合理使用范畴。这意味着AI模型可以像人类一样,自由地从书籍中学习知识。这一裁决无疑为人工智能的发展扫清了一大障碍。
法院裁决的核心内容
美国地方法院于2025年6月25日裁定,允许使用受版权保护的书籍来训练LLM。这一裁决源于多名作家对Anthropic提起的诉讼,他们指控Anthropic未经许可使用其作品训练AI模型。法官认为,正如我们允许人们阅读书籍并从中学习,以提高写作水平一样,AI模型也可以通过阅读书籍来学习,但前提是不能逐字复制受版权保护的文本。
法官Alsup指出,作者们的诉讼与“抱怨培养学生写作能力会导致大量竞争作品涌现”没有什么不同。尽管该裁决是否会被上诉还有待观察,但其合理性对AI的进步具有积极意义。值得注意的是,笔者并非法律专家,因此不提供法律建议。
AI发展面临的潜在风险
尽管AI目前发展势头强劲,但仍面临一些潜在风险:
- 监管干预:以“AI安全”为名义,对创新,尤其是开源项目进行扼杀。
- 芯片获取受限:由于地缘政治风险,可能无法获得先进的半导体芯片。
- 数据访问受限:对训练AI系统的数据访问进行严格限制。
获取高质量的数据至关重要。尽管大众媒体经常关注大型数据中心和模型扩展,但业内人士普遍认为,数据准备才是日常挑战的关键。数据准备工作包括识别高质量数据来源(书籍是其中之一),清理数据(例如,Anthropic删除了书籍页面的页眉、页脚和页码),进行错误分析以确定需要获取更多的数据类型,以及发明新的合成数据生成方法。
裁决对AI发展的影响
此次裁决降低了数据访问受限的风险。法官进一步指出,Anthropic将纸质书籍转换为数字格式以进行训练的行为也属于合理使用。然而,对于Anthropic来说,一个不利的判决是,使用盗版材料(例如从盗版网站下载的文本)不属于合理使用。因此,Anthropic仍可能在这方面承担责任。其他LLM提供商可能也需要重新审视其使用包含盗版作品的数据集的行为。
总的来说,这一裁决对AI的进步具有积极意义。它减少了AI训练和版权方面的模糊性,并为合规性提供了更清晰的蓝图。该裁决表明,使用合法获取的数据训练模型以生成变革性输出,以及将印刷书籍转换为数字格式以用于此目的,都是可以接受的。但是,从盗版网站下载数据以及未经相关版权所有者许可,永久构建用于确定目的的“通用”文本库,则不被视为合理使用。
对作家生计的担忧
许多作家担心AI会对其生计产生负面影响,对此表示理解。社会应该允许自由获取更多数据,但如果一部分人的利益受到严重影响,希望可以找到一种公平的补偿方式。
结论
此次裁决为人工智能的发展铺平了道路,降低了数据获取的风险,并明确了AI训练和版权之间的界限。然而,在追求技术进步的同时,我们也应关注可能受到影响的群体,并努力寻求公平的解决方案,以实现技术发展与社会福祉的平衡。
未来的AI发展,需要在合规的框架下,充分利用高质量的数据资源,不断创新数据处理和模型训练方法。只有这样,才能确保AI技术的健康发展,并为社会带来更大的价值。