Meta盗版门：80TB图书 torrent何去何从？AI版权战打响

在科技领域，版权问题一直是备受关注的焦点。近日，Meta公司与一众图书作者之间的版权纠纷再次引发了业界的广泛讨论。这场诉讼的核心在于Meta是否通过非法渠道，特别是通过BT下载（torrenting）获取了大量受版权保护的图书，用于其人工智能模型Llama的训练。案件的最新进展显示，尽管Meta在AI训练版权诉讼中取得了一定的胜利，但其涉嫌盗版图书的行为仍然面临法律的挑战。

案件背景：Meta与图书作者的版权之争

这场诉讼由包括知名喜剧演员莎拉·西尔弗曼和普利策奖得主朱诺·迪亚兹在内的13位图书作者发起。他们指控Meta在未经授权的情况下，通过BT下载获取了超过80TB的盗版图书，用于训练其大型语言模型Llama。作者们认为，Meta的这种行为侵犯了他们的版权，并要求Meta为此承担法律责任。

案件的审理过程中，法官文斯·查布里亚发布了一项命令，部分批准了Meta的简易判决动议。该命令确认，Meta与作者将于7月11日会面，讨论Meta在BT下载过程中是否非法传播了受保护的作品。然而，查布里亚法官也暗示，由于缺乏足够的证据，作者们可能难以在这场诉讼中取得全面的胜利。但他同时警告Meta，不能以BT下载与版权侵权无关为由，来逃避其应承担的责任。

争议焦点：BT下载行为与版权侵权的关联性

查布里亚法官指出，Meta从LibGen等盗版图书馆下载图书的行为，至少在几个方面可能与版权侵权有关。首先，Meta决定从盗版图书馆获取图书，这可能涉及到恶意的问题。这与合理使用分析的第一个因素有关，即评估使用的性质。作者们辩称，Meta曾与一些出版商就授权事宜进行过谈判，但在未能获得授权后，CEO马克·扎克伯格“升级”了这个问题。这促使Meta决定从盗版图书馆获取图书。查布里亚写道，Meta承认在使用BT下载获取数据之前，曾放弃了为这些图书寻求授权许可。

然而，审判的这一方面可能并不重要，因为查布里亚指出，“关于恶意是否与合理使用有关，法律尚不明确。”如果作者能够提供证据，证明BT下载行为对盗版图书馆产生了经济利益，从而支持并延续了其未经授权的复制和传播受版权保护作品的行为，那么这对Meta来说将更加不利。

查布里亚指出，涉及“这种点对点文件共享”的“绝大多数案件”都被认定为“构成版权侵权”。而且，“Meta使用的一些图书馆本身已被判侵权”，这可能对Meta不利。然而，Meta可能也能克服这一论点，因为图书作者“没有提交任何证据”表明Meta的下载可能“支持”或在经济上使盗版图书馆受益。

最后，查布里亚指出，关于Meta使用图书的性质的“最后一个问题”是“Meta下载原告图书与Meta使用这些图书来训练Llama之间的关系”。作者试图辩称这些要素是不同的。但查布里亚表示，无法将Meta下载图书用于训练Llama的“高度变革性”目的这一事实分开。

查布里亚写道：“因为Meta对原告图书的最终使用具有变革性，所以Meta下载这些图书也具有变革性。”

AI训练裁决或将促使作者获得更多报酬

作者们只是在诉讼的证据开示阶段才了解到Meta的BT下载行为，因此，查布里亚指出，“关于Meta所谓的传播的记录是不完整的。”查布里亚在脚注中表示，作者们有可能能够证明Meta通过提供大量的计算能力，“为BT下载网络做出了贡献”，这可能对盗版图书馆产生了有意义的帮助。

但查布里亚批评作者们只引用了一篇过时的Ars Technica文章，该文章表明人们很少使用BT下载来盗版图书。（自那时以来，电子书盗版现象显著增加，TorrentFreak在最近的报告中记录了这一点，这些报告还指出，研究表明，将盗版图书下架可以促进图书销售。）

随着Meta案件在下个月的推进，更多信息将会被披露。但查布里亚指出，无论作者胜诉与否，一个潜在的结果可能是，出版商将更有动力让作者更容易地授权他们的作品用于AI训练。

查布里亚写道：“出版商目前可能没有进行集体授权所需的子公司权利。但很难相信他们不会很快开始与他们的作者谈判这些权利，以便他们可以与大型语言模型（LLM）开发者进行大规模谈判和授权”，——“假设他们尚未开始这样做。”

查布里亚指出：“如果LLM开发者的唯一选择是获得授权或许可，或者放弃使用受版权保护的图书作为训练数据，那么这些授权市场似乎特别有可能出现。”如果其他起诉AI公司的作者获得查布里亚认为不可避免的胜利，那么可能会出现这样的结果。他们需要提供证据表明AI产品稀释了其作品的市场，而起诉Meta的作者未能做到这一点。

在他批准Meta赢得针对作者版权侵权索赔的裁决中，查布里亚表示，Meta获胜仅仅是因为作者提出了“错误的论点”，这表明如果提出更强有力的版权斗争，Meta可能更倾向于在未来恢复授权谈判，尽管本周赢得了这场具有里程碑意义的版权战，击败了一些作者。

查布里亚写道，如果面临这种潜在现实的AI公司“选择仅使用公共领域的作品作为训练数据（而不是授权受版权保护的作品），那将表明他们实际上并不像他们所说的那样需要受版权保护的作品。”如果这是真的，那么对于作者长期以来一直认为的明显侵犯版权的盗版图书BT下载行为，可能几乎没有借口。

案件的潜在影响：AI版权授权市场的未来

这场诉讼不仅仅关乎Meta是否侵犯了图书作者的版权，更关乎AI版权授权市场的未来走向。如果作者们能够在这场诉讼中取得胜利，或者通过其他类似的诉讼迫使AI公司为其训练数据支付合理的版权费用，那么这将极大地激励出版商和作者，促使他们积极参与到AI版权授权市场中来。这将有助于建立一个更加公平、透明和可持续的AI生态系统，让AI技术的发展能够更好地尊重和保护知识产权。

另一方面，如果Meta最终胜诉，或者AI公司能够通过其他方式规避版权法律的约束，那么这将可能导致AI版权授权市场的萎缩，甚至消失。这将对作者和出版商的利益造成损害，同时也可能阻碍AI技术的创新和发展。因此，这场诉讼的结果，无疑将对AI行业的未来产生深远的影响。

法律与技术的博弈：AI版权保护的挑战

Meta与图书作者的版权纠纷，也凸显了当前AI版权保护所面临的挑战。一方面，AI技术的快速发展，使得版权侵权的行为更加难以追踪和界定。AI公司可以通过各种方式获取大量的训练数据，而这些数据的来源往往难以确定。另一方面，现有的版权法律体系，在应对AI技术带来的新问题时，也显得有些力不从心。例如，如何界定AI生成内容的版权归属，如何平衡AI技术的发展与版权保护之间的关系等等，这些都是亟待解决的问题。

因此，我们需要不断完善和更新版权法律体系，以适应AI技术的发展。同时，我们也需要加强技术监管，提高AI版权侵权行为的发现和惩处力度。只有这样，才能有效地保护作者的合法权益，促进AI行业的健康发展。

行业观察：AI公司应如何应对版权风险？

对于AI公司来说，如何应对版权风险，已经成为一个至关重要的问题。首先，AI公司应该尊重知识产权，遵守版权法律法规，不从事任何侵犯版权的行为。其次，AI公司应该积极寻求版权授权，与作者和出版商建立合作关系，通过合法的方式获取训练数据。此外，AI公司还可以探索新的技术手段，例如使用合成数据或公共领域的数据进行AI训练，以降低版权风险。

总之，AI公司应该将版权保护视为企业发展的长期战略，积极应对版权风险，为AI行业的健康发展做出贡献。

结语：平衡创新与版权保护，共筑AI未来

Meta与图书作者的版权纠纷，无疑给整个AI行业敲响了警钟。在AI技术快速发展的今天，我们必须认真思考如何平衡创新与版权保护之间的关系。只有建立一个公平、透明和可持续的AI生态系统，才能让AI技术更好地服务于人类，共筑AI的未来。