Meta陷版权风波：盗版训练数据引争议，AI版权归属何去何从？

在科技领域，版权诉讼总能引发广泛关注。最近，Meta 公司与一众作家之间的版权纠纷再次成为焦点。这场诉讼的核心在于 Meta 是否非法使用盗版资源来训练其 Llama 模型。虽然 Meta 在很大程度上赢得了这场由包括著名喜剧演员莎拉·西尔弗曼和普利策奖得主朱诺·迪亚兹在内的 13 位作家提起的 AI 训练版权诉讼，但关于 Meta 是否通过 torrent 下载书籍用于训练 Llama 模型的问题仍然悬而未决。

法官 Vince Chhabria 在一项部分批准 Meta 简易判决动议的命令中确认，Meta 和作家们将于 7 月 11 日会面，讨论如何处理原告提出的 Meta 在 torrent 过程中非法传播其受保护作品的指控。法官的命令暗示，由于缺乏证据，作家们可能难以赢得这场诉讼的这一部分，因为在这个案件后期提出的问题尚未经过充分的调查。但他同时警告说，Meta 认为其 torrent 行为与复制书籍是否属于合理使用完全“无关”的观点是错误的。

法官 Chhabria 认为，从 LibGen 等影子图书馆 torrent 下载的超过 80.6 TB 的数据“至少在几个方面具有潜在的相关性”。首先，Meta 决定从影子图书馆下载盗版书籍与“恶意”问题有关。这与合理使用分析的第一个因素相关，该因素衡量使用的性质。作家们辩称，Meta 曾与一些出版商就授权使用其作品进行谈判，但在“未能获得许可”后，CEO 马克·扎克伯格“升级”了这个问题。Chhabria 解释说，这促使 Meta 决定从盗版图书馆获取书籍。Meta 承认，在放弃为这些书籍寻求许可协议后，使用 BitTorrent 抓取数据。

然而，审判的这一方面可能并不重要，因为 Chhabria 指出，“关于恶意是否与合理使用相关的法律尚不明确”。如果作家们能够提供证据支持 torrent 下载可能与案件相关的第二个方面，那么对 Meta 来说情况可能会更糟。Chhabria 写道：“Meta 从影子图书馆下载受版权保护的材料”也可能与使用的性质有关，“如果这使创建图书馆的人受益，从而支持和延续他们未经授权复制和传播受版权保护的作品”。

列举潜在的不利因素时，Chhabria 指出，涉及“这种点对点文件共享”的“绝大多数案件”都被发现“构成版权侵权”。而且，Meta 使用的一些图书馆本身已被判侵权，这可能对 Meta 的案件没有帮助。然而，Meta 可能会克服这一论点，因为作家们“没有提交任何证据”表明 Meta 的下载可能如何“支持”或在经济上使盗版图书馆受益。

最后，Chhabria 指出，“与 Meta 使用书籍的性质相关的最后一个问题”是“Meta 下载原告书籍与 Meta 使用这些书籍训练 Llama 之间的关系”。作家们试图辩称这些要素是不同的。但 Chhabria 表示，无法将 Meta 下载书籍以服务于训练 Llama 这一“高度变革性”目的的事实分开。“因为 Meta 最终使用原告的书籍具有变革性，所以 Meta 下载这些书籍也具有变革性，”Chhabria 写道。

AI 训练裁决可能会让更多作者获得报酬

作家们只是通过诉讼中的 discovery 才了解到 Meta 的 torrent 行为，因此，Chhabria 指出，“关于 Meta 所谓传播的记录是不完整的”。Chhabria 在脚注中表示，作家们或许能够证明 Meta 通过提供可能对影子图书馆有意义帮助的大量计算能力，“为 BitTorrent 网络做出了贡献”。但 Chhabria 批评作家们只引用了 2010 年的一篇过时的 Ars Technica 文章，该文章表明人们很少使用 torrent 下载盗版书籍。（自那时以来，电子书盗版现象已显著增加，正如 TorrentFreak 在最近的报告中所记录的那样，该报告还指出，研究表明，将盗版书籍下线可以促进书籍销售。）

随着 Meta 案件在下个月取得进展，更多信息将会披露，但 Chhabria 指出，无论作家们胜诉与否，一个潜在的结果可能是出版商更有动力让授权作家作品用于 AI 训练变得更容易。“出版商目前可能不持有进行集体授权所需的附属权利，”Chhabria 写道。“但很难相信他们不会很快开始与他们的作者谈判这些权利，以便他们可以与大型语言模型（LLM）开发商进行大规模谈判和授权”，假设他们尚未开始这样做。

“如果 LLM 开发商的唯一选择是获得许可或放弃使用受版权保护的书籍作为训练数据，那么这些授权市场似乎特别有可能出现，”Chhabria 指出。如果其他起诉 AI 公司的作者获得 Chhabria 认为不可避免的胜利，那么可能会出现这种结果。他们需要证明 AI 产品会稀释其作品的市场，而起诉 Meta 的作者未能做到这一点。

在授予 Meta 针对作者版权侵权索赔的胜利的裁决中，Chhabria 暗示 Meta 获胜仅仅是因为作者提出了“错误的论点”，这表明如果提出更强有力的版权诉讼，Meta 可能会更倾向于在未来恢复授权谈判，尽管本周赢得了这场具有里程碑意义的版权诉讼，击败了一小部分作者。而且，如果面临这种潜在现实的 AI 公司“选择仅使用公共领域的作品作为训练数据（而不是授权受版权保护的作品），那将表明他们实际上并不像他们所说的那样需要受版权保护的作品，”Chhabria 写道。如果这是真的，那么对于作者长期以来认为明显侵犯版权的盗版书籍的 torrent 行为，可能几乎没有借口。

Photo of Ashley Belanger