本周一,美国一家联邦地区法院作出了一项具有里程碑意义的裁决,判定大型语言模型(LLM)在训练过程中使用受版权保护的书籍内容属于“合理使用”。这一判决源于多位作者对Anthropic公司提起诉讼,指控其未经许可就使用他们的作品来训练其AI模型。法院的裁定指出,正如我们允许个人通过阅读书籍来提高写作能力,但并非逐字抄袭,AI模型也应享有类似的权利,通过学习而非复述来提升自身能力。
法官阿斯普在裁决书中明确指出,作者们的诉讼“与他们抱怨训练学童写好文章会导致竞争作品爆炸式增长并无二致”。尽管此判决未来仍有可能面临上诉,但其当前的合理性及其对AI技术进步的积极推动作用不容忽视。对于正处于高速发展阶段的人工智能领域而言,这一裁决无疑为其扫清了一项重大的法律障碍。
对AI发展格局的深远影响
AI技术当前正势头强劲,但其发展路径并非一帆风顺,其中存在一些关键性风险。这包括可能扼杀创新的“监管捕获”,尤其是在“AI安全”之名下对开源技术的过度限制;获取尖端半导体芯片的持续性挑战(例如地缘政治冲突可能导致供应链中断);以及对AI系统训练所需数据进行严格限制的法规。此次“合理使用”的裁决,恰恰在很大程度上降低了第三个风险,即数据获取的法律壁垒。
高质量数据的可及性对于AI模型的性能至关重要。尽管主流媒体往往聚焦于大型数据中心的建设和模型规模的扩张,但与基础模型开发人员交流时,我们发现他们日常工作中很大一部分挑战在于“数据准备”。这具体表现为一套常见的数据中心AI实践流程:识别高价值数据(书籍正是重要的来源之一),清洗数据(判决中提及Anthropic采取了去除书籍页眉、页脚和页码等步骤),进行错误分析以确定需要获取更多何种类型的数据,以及探索新的方法来生成高质量的合成数据。这些繁琐而关键的步骤共同构成了模型训练的基石。
数据驱动型AI的挑战与实践
此次判决为AI领域在数据获取方面提供了更为清晰的指引。长期以来,关于AI模型训练数据来源的合法性问题一直悬而未决,为众多AI公司带来了巨大的法律不确定性。现在,美国法院明确指出,在合法获取数据的前提下,使用受版权保护的作品进行模型训练属于合理使用,这无疑为整个行业注入了一剂强心针。它不仅能够鼓励更多企业和研究机构放心地投入到大模型的研发中,还将促进AI技术在内容生成、教育、科学研究等多个领域的创新应用。
然而,判决也并非一概而论。它强调了“合法获取数据”这一前提。法官同时指出,Anthropic将纸质书籍转换为数字格式以进行训练的行为也属于合理使用。但值得注意的是,判决也给Anthropic带来了一些不利因素:虽然对合法获取的数据进行训练是合理的,但使用盗版材料(例如从盗版网站下载的文本)则不构成合理使用。这意味着Anthropic仍可能因此面临法律责任。此项判决也警示了其他LLM提供商,促使他们重新审视其数据集的来源,确保不包含任何盗版作品。此举有助于建立一个更加规范和健康的AI数据生态系统。
版权保护与技术进步的未来共存
总体而言,这项裁决对AI的进步具有积极意义。其最大的好处可能在于它降低了AI训练与版权之间的模糊性,并(如果能经受住上诉考验)为未来的合规之路提供了更明确的路线图。该决定表明,通过合法获取的数据来构建能够生成变革性输出的模型,并将印刷书籍转换为数字格式以用于此目的,都是可以接受的。然而,从盗版网站下载内容,以及未经相关版权持有者许可而永久建立一个“通用目的”的文本库,以供未来未知目的使用的做法,则不被视为合理使用。
我们充分理解并同情许多作家对生计可能受到AI影响的担忧。如何妥善解决这一问题,目前尚无明确答案。从社会整体利益来看,我们当然希望能够自由获取更多数据以推动知识进步,但如果因此导致一部分人群遭受重大负面影响,我们有责任共同探索并建立一个能够公平补偿他们的机制。未来的挑战在于如何平衡技术创新的需求与创作者的合法权益,这需要行业、法律界和社会各界的共同努力,以确保AI的进步能够惠及所有人,而非仅仅一部分群体。持续的对话、政策的创新以及技术本身的迭代,将共同塑造版权与AI共存的未来图景。