Meta深陷版权漩涡：80TB书籍 torrenting 引发的AI版权争议

在科技领域，版权问题始终是备受关注的焦点。近日，Meta公司与多位知名作家，包括喜剧演员莎拉·西尔弗曼和普利策奖得主朱诺·迪亚兹，就AI训练版权问题展开了一场激烈的法律 battle。尽管Meta在很大程度上赢得了这场诉讼，但案件中一个悬而未决的问题依然引人深思：Meta是否通过 torrenting（BT下载）非法获取书籍，用于其 Llama 模型的训练？

这场诉讼的核心在于，作家们指控 Meta 通过 BT 下载获取了大量受版权保护的书籍，用于训练其 AI 模型。根据法庭文件，Meta 可能从 LibGen 等盗版资源库下载了超过 80.6TB 的数据。这一行为不仅引发了关于版权保护的讨论，也对 AI 训练数据的获取方式提出了质疑。

法官 Vince Chhabria 在一份命令中指出，Meta 和作者们将于 7 月 11 日会面，讨论 Meta 在 torrenting 过程中是否非法传播了受保护的作品。尽管法官认为作者们可能难以在此问题上取得胜利，因为他们在此案后期才提出这一问题，缺乏足够的证据支持。但他同时也警告 Meta，不能简单地认为 torrenting 与其复制书籍的合理使用毫无关联。

Chhabria 法官认为，Meta 从盗版资源库下载书籍的行为可能在几个方面具有相关性。首先，这可能与 Meta 是否具有“恶意”有关。在合理使用分析中，首要因素是考量使用的性质。作者们声称，Meta 曾与一些出版商洽谈授权事宜，但在未能获得授权后，CEO 马克·扎克伯格“升级”了此事，转而从盗版资源库获取书籍。Chhabria 法官指出，Meta 在放弃寻求授权协议后，承认使用 BT 下载来获取数据。

AI快讯

然而，审判的这一方面可能并不重要，因为 Chhabria 法官指出，“关于恶意是否与合理使用相关的法律尚不明确”。如果作者能够提供证据，证明 torrenting 行为对盗版资源库产生了利益，从而支持并延续了其未经授权的复制和传播受版权保护作品的行为，那么这对 Meta 来说将更加不利。

Chhabria 法官指出，绝大多数涉及“此类点对点文件共享”的案件都被认定为“构成版权侵权”。而且，Meta 使用的一些资源库本身也曾被判侵权，这可能对 Meta 的案件不利。然而，Meta 可能会克服这一论点，因为书籍作者“没有提交任何证据”表明 Meta 的下载可能“支持”或在经济上使盗版资源库受益。

最后，Chhabria 法官指出，“与 Meta 使用书籍的性质相关的最后一个问题”是“Meta 下载原告书籍与 Meta 使用这些书籍来训练 Llama 之间的关系”。作者曾试图辩称这些要素是截然不同的。但 Chhabria 法官表示，Meta 下载书籍是为了服务于训练 Llama 这一“高度变革性”的目的，这是不可分割的。

“因为 Meta 最终对原告书籍的使用具有变革性，所以 Meta 下载这些书籍的行为也具有变革性，”Chhabria 法官写道。

AI 训练裁决可能会让更多作者获得报酬，作者仅通过诉讼中的 discovery（证据开示）才了解到 Meta 的 torrenting 行为，因此，Chhabria 法官指出，“关于 Meta 所谓传播的记录不完整。”Chhabria 法官在脚注中表示，作者或许能够证明 Meta 通过提供重要的计算能力“为 BT 网络做出了贡献”，这可能对盗版资源库产生了有意义的帮助。

但 Chhabria 法官批评作者仅引用了 Ars Technica 2010 年的一篇文章，该文章表明人们很少使用 torrent 来盗版书籍。（自那时以来，电子书盗版现象已显著增加，正如 TorrentFreak 在最近的报告中所记录的那样，该报告还指出，研究表明，将盗版书籍下架可以促进书籍销售。）

随着 Meta 案件在下个月取得进展，更多信息将被披露，但 Chhabria 法官指出，无论作者胜诉与否，一个潜在的结果可能是，出版商更有动力让授权作者的作品用于 AI 训练变得更加容易。

“出版商目前可能不持有进行集体授权所需的附属权利，”Chhabria 法官写道。“但很难相信他们不会很快开始与作者谈判这些权利，以便他们能够与大型语言模型 (LLM) 开发商进行大规模谈判和授权”，——“假设他们尚未开始这样做。”

“如果 LLM 开发人员的唯一选择是获得许可或放弃使用受版权保护的书籍作为训练数据，那么这些授权市场似乎特别可能出现，”Chhabria 法官指出。

如果其他起诉 AI 公司的作者获得 Chhabria 法官认为不可避免的胜利，那么这可能会成为结果。他们将需要证明 AI 产品会稀释其作品的市场，而起诉 Meta 的作者未能做到这一点。

在他批准 Meta 赢得针对作者版权侵权索赔的裁决中，Chhabria 法官表示，Meta 获胜仅仅是因为作者提出了“错误的论点”，这表明如果提出更强有力的版权斗争，Meta 可能会更倾向于在未来恢复授权谈判，尽管本周赢得了这场针对少数作者的具有里程碑意义的版权 battle。

而且，如果面临这种潜在现实的 AI 公司“转而选择仅使用公共领域作品作为训练数据（而不是授权受版权保护的作品），那将表明他们实际上并不像他们所说的那样需要受版权保护的作品，”Chhabria 法官写道。如果这是真的，那么对于作者长期以来认为明显构成版权侵权的盗版书籍 torrenting 行为，可能几乎没有任何借口。

AI版权保护的新方向：从Meta诉讼案看未来

Meta与作家们的版权诉讼案，不仅仅是一场法律 battle，更是一场关于AI时代版权保护的深刻讨论。这场诉讼的结果，可能会对AI训练数据的获取方式，以及作者的权益产生深远的影响。

AI版权诉讼：一次对行业规则的拷问

在AI技术飞速发展的今天，如何平衡技术创新与版权保护，成为了一个亟待解决的问题。Meta与作家们的诉讼案，正是对这一问题的直接回应。这场诉讼不仅关乎Meta是否侵权，更关乎整个AI行业的发展方向。

从诉讼看AI数据合规

AI模型训练需要大量的数据，其中很多数据可能涉及版权问题。如何合法合规地获取这些数据，成为了AI公司面临的重要挑战。Meta的诉讼案，提醒我们，AI公司在追求技术创新的同时，必须尊重版权，遵守法律法规。

AI版权保护：一场多方参与的博弈

AI版权保护，不仅仅是法律问题，更是一场多方参与的博弈。AI公司、作者、出版商、法律界人士，都需要积极参与其中，共同探索AI时代版权保护的新模式。只有通过多方合作，才能找到平衡技术创新与版权保护的最佳方案。

对AI版权保护的几点建议

建立完善的版权授权机制： 鼓励AI公司与作者、出版商合作，建立完善的版权授权机制，确保AI模型训练数据的合法来源。
加强技术监管： 加强对AI技术的监管，防止AI技术被用于侵权行为。
提高公众版权意识： 提高公众的版权意识，让更多人了解AI版权保护的重要性。

结语

Meta与作家们的版权诉讼案，是AI时代版权保护的一个缩影。这场诉讼的结果，将对AI行业的发展产生重要影响。我们期待各方能够以这场诉讼为契机，共同探索AI时代版权保护的新路径，为AI技术的健康发展保驾护航。