Meta陷版权风波:BT下载盗版图书用于AI训练引争议

0

在科技领域,版权问题一直是备受关注的焦点。近日,Meta公司与图书作者之间的版权纠纷再次引发了业界的广泛讨论。这场纠纷的核心在于Meta是否通过非法渠道,特别是通过BT下载(torrenting)获取了大量受版权保护的图书,用于其人工智能模型Llama的训练。本文将深入剖析这一事件,探讨其中涉及的法律、技术和社会伦理问题。

案件背景

事件的开端是13位图书作者,包括知名喜剧演员莎拉·西尔弗曼和普利策奖得主朱诺·迪亚兹,对Meta提起的版权诉讼。作者们指控Meta在未经授权的情况下,使用他们的作品来训练其AI模型。尽管最初的诉讼涉及多个方面,但目前仅剩下关于Meta通过BT下载获取图书的指控仍在审理中。

美国地方法院法官文斯·查布里亚在审理此案的过程中,发布了一项命令,部分批准了Meta提出的即决判决动议。查布里亚法官表示,Meta与作者们将于7月11日会面,讨论如何处理原告提出的关于Meta在BT下载过程中非法传播其受保护作品的独立诉讼请求。

争议焦点

Meta的BT下载行为

原告方指控Meta通过BT下载,从名为LibGen的盗版图书馆获取了超过80.6TB的数据。这些数据被用于训练Llama模型。Meta辩称,其BT下载行为与是否构成合理使用无关。然而,查布里亚法官对此持不同意见。他认为,Meta的BT下载行为在几个方面具有潜在的相关性。

首先,Meta选择从盗版图书馆获取图书可能涉及恶意行为。这与合理使用分析的第一个因素——使用的性质有关。原告方声称,Meta曾与一些出版商就授权事宜进行谈判,但在未能获得授权后,Meta CEO马克·扎克伯格“升级”了这一问题,最终决定从盗版图书馆获取图书。查布里亚法官指出,Meta在放弃寻求授权协议后,承认使用BT下载来获取数据。

恶意与合理使用

然而,查布里亚法官也表示,关于恶意是否与合理使用相关的法律尚不明确。这意味着,即使Meta的BT下载行为被认定为恶意,也不一定直接导致其败诉。

更重要的是,如果原告方能够提供证据,证明Meta的BT下载行为使盗版图书馆受益,从而支持并延续了其未经授权的复制和传播行为,那么Meta的情况可能会更加不利。查布里亚法官指出,涉及此类P2P文件共享的绝大多数案件都构成版权侵权。此外,Meta使用的某些盗版图书馆本身也曾被判承担侵权责任。

证据的缺失

尽管如此,Meta可能能够克服这一论点,因为图书作者尚未提交任何证据,表明Meta的下载行为可能正在“支持”或在经济上使盗版图书馆受益。

查布里亚法官还指出,与BT下载相关的“Meta使用图书性质的最后一个问题”是“Meta下载原告图书与Meta使用这些图书训练Llama之间的关系”。作者试图辩称这些要素是截然不同的。但查布里亚法官表示,Meta下载图书是为了服务于训练Llama这一“高度变革性”目的,这是不可分割的事实。

查布里亚法官写道:“因为Meta对原告图书的最终使用具有变革性,所以Meta下载这些图书也具有变革性。”

书籍

AI训练裁决或将使更多作者获得报酬

作者仅通过诉讼中的证据开示才了解Meta的BT下载行为,因此,查布里亚法官指出,“关于Meta所谓传播的记录是不完整的。”

查布里亚法官在脚注中表示,作者或许能够证明Meta通过提供大量的计算能力来“促成BT网络”,这可能对盗版图书馆起到了有意义的帮助。

但查布里亚法官批评作者仅引用了2010年《Ars Technica》的一篇过时文章,该文章表明人们很少使用BT下载来盗版图书。(自那时以来,电子书盗版现象已显著增加,正如TorrentFreak在最近的报告中记录的那样,该报告还指出,研究表明,将盗版图书下架可以促进图书销售。)

随着Meta案件在下个月的推进,更多信息将被披露,但查布里亚法官指出,无论作者胜诉与否,一个潜在的结果可能是,出版商将更有动力让授权作者作品用于AI训练变得更容易。

查布里亚法官写道:“出版商可能目前不持有进行集体授权所需的附属权利。但很难相信他们不会很快开始与作者谈判这些权利,以便他们可以与大型语言模型(LLM)开发者进行大规模谈判和授权”,——“假设他们尚未开始这样做。”

查布里亚法官指出:“如果LLM开发者唯一的选择是获得许可或放弃使用受版权保护的图书作为训练数据,那么这些授权市场似乎特别有可能出现。”

如果其他起诉AI公司的作者获得查布里亚法官认为不可避免的胜利,那么这可能会成为结果。他们将需要证明AI产品会稀释其作品的市场,而起诉Meta的作者未能做到这一点。

在他做出有利于Meta的裁决,驳回作者的版权侵权主张时,查布里亚法官表示,Meta获胜仅仅是因为作者提出了“错误的论点”,这表明如果提出更有力的版权抗辩,Meta将来可能更倾向于恢复授权谈判,尽管本周Meta在这场具有里程碑意义的版权诉讼中击败了一些作者。

查布里亚法官写道,如果面临这种潜在现实的AI公司“转而选择仅使用公共领域的作品作为训练数据(而不是授权受版权保护的作品),那将表明他们实际上并不像他们所说的那样迫切需要受版权保护的作品。”如果这是真的,那么对于作者长期以来认为明显侵犯版权的盗版图书BT下载行为,可能几乎没有借口。

法律与伦理的思考

版权的边界

这起案件的核心问题在于,在AI技术飞速发展的背景下,如何界定版权的边界。一方面,保护作者的合法权益是维护创作生态的重要保障。另一方面,AI的发展需要大量的数据作为支撑,如果版权保护过于严格,可能会阻碍技术的创新。

合理使用的考量

合理使用原则是版权法中的一项重要例外,允许在特定情况下,未经版权所有者许可使用受版权保护的作品。然而,如何判断AI训练是否属于合理使用,目前尚无明确的法律规定。法院需要综合考虑多个因素,包括使用的目的和性质、受版权保护作品的性质、使用的数量和实质性,以及使用对受版权保护作品潜在市场或价值的影响。

伦理责任

除了法律问题,Meta的行为还涉及伦理责任。即使从盗版图书馆获取图书在法律上存在灰色地带,企业也应承担起尊重知识产权的伦理责任。通过合法途径获取数据,不仅有助于维护健康的创作生态,也有利于企业的长期发展。

行业影响与未来趋势

授权模式的变革

查布里亚法官的观点具有前瞻性。他认为,出版商可能会开始与作者谈判,以便能够进行大规模的授权谈判。这种趋势可能会导致新的授权模式出现,为AI公司提供更便捷、合法的获取数据的途径。

AI公司的数据策略

面对日益严格的版权监管,AI公司需要重新审视其数据策略。一种选择是加强与版权所有者的合作,通过授权协议获取数据。另一种选择是更多地利用公共领域的数据,减少对受版权保护作品的依赖。此外,AI公司还可以探索新的技术,例如联邦学习,以在保护数据隐私的同时进行模型训练。

法律的完善

随着AI技术的不断发展,现有的版权法律可能需要进行完善。立法者需要制定更加明确的规则,以平衡版权保护和技术创新之间的关系。同时,法院也需要在实践中不断探索,为类似案件提供指导。

总结

Meta与图书作者的版权纠纷,不仅是一场法律诉讼,更是一场关于技术、法律和伦理的深刻对话。这场纠纷的结果将对AI行业的发展产生重要影响。我们期待法院能够做出公正的判决,为未来的版权保护和技术创新指明方向。