Meta版权诉讼案：AI训练数据来源的伦理与法律边界

在科技领域，版权问题一直是备受关注的焦点。近期，Meta公司与一系列图书作者之间的版权诉讼案再次引发了人们对于AI训练数据来源的讨论。这场诉讼的核心在于，Meta是否在未经授权的情况下，通过BT下载（torrenting）获取了大量受版权保护的图书，用于其Llama模型的训练。虽然Meta在很大程度上赢得了针对13位图书作者（包括知名喜剧演员莎拉·西尔弗曼和普利策奖得主朱诺·迪亚兹）的AI训练版权诉讼，但关于其通过BT下载侵犯版权的指控仍在审理中。

法官Vince Chhabria发布了一项命令，部分批准了Meta的简易判决动议，并确认Meta和作者们将于7月11日会面，讨论如何处理原告提出的关于Meta在BT下载过程中非法传播其受保护作品的单独索赔。Chhabria法官的命令暗示，由于缺乏证据，作者们可能难以赢得这场诉讼，因为在这个案件后期提出的问题还没有经过充分的调查。但他同时也警告说，Meta认为其BT下载行为与书籍的合理使用完全“无关”的观点是错误的。

Chhabria法官指出，从LibGen等网络盗版图书馆下载的数据可能超过80.6TB，这“至少在几个不同的方面具有潜在的相关性”。首先，Meta决定从盗版图书馆下载图书与“恶意”问题相关。这与合理使用分析的第一个因素有关，即衡量使用的性质。作者们辩称，Meta曾与一些出版商讨论过授权作者作品的问题，但在“未能获得授权”后，CEO马克·扎克伯格“升级”了这个问题，Chhabria解释说。这促使Meta决定从盗版图书馆获取图书，Meta承认在使用BitTorrent获取数据之前，放弃了为同一批图书寻求授权协议。

然而，庭审的这一方面可能并不重要，因为Chhabria指出，“关于恶意是否与合理使用相关的法律尚不明确”。如果作者能够提供证据支持BT下载与案件相关的第二个方面，那么Meta的情况肯定会更糟。Chhabria写道，“Meta从盗版图书馆下载受版权保护的材料”也与使用的性质相关，“如果这有利于创建图书馆的人，从而支持和延续他们未经授权复制和传播受版权保护的作品”。

考虑到对Meta的潜在不利因素，Chhabria指出，涉及“这种点对点文件共享”的“绝大多数案件”都被认定为“构成版权侵权”。而且，“Meta使用的一些图书馆本身已被判侵权”，这可能对Meta的案件没有帮助。然而，Meta可能会克服这一论点，因为图书作者“没有提交任何证据”表明Meta的下载可能“支持”或经济上使盗版图书馆受益。

最后，Chhabria指出，关于Meta在其BT下载中使用图书的“最后一个问题”是“Meta下载原告图书与Meta使用这些图书训练Llama之间的关系”。作者曾试图辩称这些要素是不同的。但Chhabria表示，Meta下载图书是为了服务于训练Llama的“高度变革性”目的，这是不可分割的事实。“因为Meta最终对原告图书的使用具有变革性，所以Meta下载这些图书也是如此”，Chhabria写道。

在诉讼的调查过程中，作者们才了解到Meta的BT下载行为，正因为如此，Chhabria指出，“关于Meta所谓传播的记录是不完整的”。Chhabria在脚注中表示，作者们或许能够证明Meta通过提供大量的计算能力来“为BitTorrent网络做出贡献”，这本可以有意义地帮助盗版图书馆。但是，Chhabria批评作者们只引用了一篇过时的Ars Technica文章，该文章表明人们很少使用BT下载来盗版图书。（自那时以来，电子书盗版现象已显著增加，TorrentFreak在最近的报告中记录了这一点，这些报告还指出，研究表明，将盗版图书下线可以促进图书销售。）

随着Meta案件在下个月的进展，更多信息将会被披露，但Chhabria指出，无论作者胜诉与否，一个潜在的结果可能是，出版商更有动力让作者更容易授权其作品用于AI训练。“出版商目前可能不持有进行集体授权所需的附属权利”，Chhabria写道。“但我们很难相信他们不会很快开始与作者谈判这些权利，以便他们能够与大型语言模型（LLM）开发者进行大规模谈判和授权”，Chhabria指出，“假设他们尚未开始这样做。”

Chhabria指出，“如果LLM开发者的唯一选择是获得许可或放弃使用受版权保护的图书作为训练数据，那么这些许可市场似乎特别有可能出现。”如果其他起诉AI公司的作者获得Chhabria认为不可避免的胜利，那么可能会出现这样的结果。他们需要证明AI产品会稀释其作品的市场，而起诉Meta的作者未能做到这一点。Chhabria在他授予Meta胜诉的裁决中表示，Meta的胜利仅仅是因为作者提出了“错误的论点”，这表明如果提出更强有力的版权斗争，Meta可能更倾向于恢复授权谈判，尽管本周赢得了这场具有里程碑意义的版权战。如果面临这种潜在现实的AI公司“选择仅使用公共领域的作品作为训练数据（而不是授权受版权保护的作品），那将表明他们实际上并不像他们所说的那样需要受版权保护的作品”，Chhabria写道。如果这是真的，那么对于作者长期以来认为明显侵犯版权的盗版图书下载行为，可能几乎没有理由。

Ashley Belanger

总而言之，Meta与图书作者的版权诉讼案，不仅关乎AI训练数据的合法来源，也牵涉到出版行业未来的发展方向。随着AI技术的不断进步，如何平衡技术创新与版权保护，将是各方需要共同思考和解决的重要课题。这场诉讼的结果，无疑将对整个行业产生深远的影响，并可能引发更多关于AI版权问题的讨论和探索。