Meta陷版权漩涡：AI训练数据来源引争议，盗版下载与合理使用如何界定？

Meta与版权之争：AI模型训练数据来源再引争议

案件背景：从许可谈判到盗版下载

Meta公司在开发其Llama模型时，需要大量的文本数据进行训练。据透露，Meta曾与一些出版商就作品许可使用进行过谈判，但未能达成协议。随后，Meta被指控通过BitTorrent网络，从LibGen等盗版资源网站下载了超过80TB的书籍数据，用于训练其AI模型。这一行为引发了包括喜剧演员Sarah Silverman和普利策奖得主Junot Diaz在内的13位书籍作者的集体诉讼。

AI快讯

法庭裁决：Meta初步胜诉，但仍存争议

在初步的法庭裁决中，法官Vince Chhabria部分批准了Meta的简易判决动议，认为作者们提出的部分版权侵权指控缺乏充分的证据支持。然而，法官同时指出，Meta通过盗版网站下载书籍的行为，与版权侵权问题并非完全不相关。法官明确表示，Meta的盗版行为可能与其使用书籍的合理性有关，并计划在7月11日与双方会面，进一步讨论Meta在种子下载过程中是否非法传播了受保护的作品。

盗版下载行为与合理使用原则的关联

法官Chhabria认为，Meta从盗版网站下载书籍的行为，至少在以下几个方面具有潜在的相关性：

恶意行为：Meta在未能获得许可的情况下，选择从盗版网站下载书籍，这可能被视为一种恶意行为，从而影响其使用书籍的合理性。合理使用原则是版权法中的一项重要例外，允许在特定情况下使用受版权保护的作品，而无需获得版权所有者的许可。然而，如果使用者的行为具有恶意，可能会削弱其主张合理使用的权利。
对盗版网站的经济支持：如果Meta的下载行为为盗版网站带来了经济利益，从而支持和延续了其未经授权的复制和传播行为，那么这也将对其有利地位产生负面影响。法官指出，如果Meta的下载行为实际上“支持”或在经济上帮助了盗版图书馆，这可能会对Meta不利。

作者面临的挑战：证据不足

尽管法官认为Meta的盗版行为可能具有相关性，但他同时也指出，作者们目前尚未提供足够的证据来支持他们的指控。例如，作者们未能提供证据表明Meta的下载行为如何为盗版网站带来经济利益。因此，作者们在这场诉讼中面临着不小的挑战。

Meta的反驳：合理使用与转型性使用

Meta辩称，其使用书籍的行为属于合理使用，因为其目的是为了训练AI模型，这是一种具有转型性的使用方式。Meta认为，AI模型的训练与原始作品的商业价值无关，因此不应被视为侵权行为。法官在一定程度上接受了Meta的这一观点，认为Meta使用书籍的最终目的是为了训练Llama模型，这具有高度的转型性。因此，Meta下载这些书籍的行为也被认为是具有转型性的。

AI训练数据版权问题的复杂性

未来走向：许可授权或成趋势

对AI公司和版权所有者的启示

旧文新知：电子书盗版与日俱增

作者们引用了一篇过时的Ars Technica文章（2010年），该文章表明人们很少使用种子下载来盗版书籍。但自那时以来，电子书盗版现象已显著增加。TorrentFreak网站记录了这一点，并在最近的报告中指出，有研究表明，将盗版书籍下架实际上可以促进书籍销售。

案件的潜在影响

Meta案件的进展将在下个月进一步披露，但Chhabria指出，无论作者胜诉与否，一个潜在的结果可能是，出版商将更有动力让作者的作品更容易获得许可，用于AI训练。Chhabria写道：“出版商目前可能没有必要的子公司权利来实现集体许可。”“但很难相信他们不会很快开始与作者谈判这些权利，以便他们可以与大型语言模型（LLM）开发者进行大规模谈判和许可”，前提是他们尚未开始这样做。