Meta深陷盗版泥潭：AI训练数据版权风波再起，伦理与法律边界何在？

在科技领域，版权侵权问题一直是备受关注的焦点。近日，Meta公司再次卷入了一场版权纠纷，引发了业界广泛的讨论。据最新诉讼显示，Meta涉嫌多年来通过BitTorrent网络盗版并传播包括成人影片在内的多种内容，以此来训练其人工智能（AI）模型。这一指控不仅触及了版权保护的底线，更引发了对AI伦理和数据合规性的深刻反思。

这场风波始于一起由图书作者发起的版权诉讼。今年早些时候，这些作者指控Meta通过“影子图书馆”非法获取了至少81.7TB的数据，用于AI模型的训练。尽管Meta在很大程度上驳回了这些指控，并声称没有证据表明其通过BitTorrent网络上传或下载盗版数据，但作者们仍然有机会证明Meta可能从大规模的盗版行为中获利。

AI快讯

随后，成人影片公司Strike 3 Holdings向加利福尼亚州一家美国地方法院提起了新的诉讼。该公司声称，Meta多年来一直在 torrenting 并 seeding 其受版权保护的内容，最早可追溯到 2018 年。该诉讼指出，一些IP地址明确注册到Meta，而另一些IP地址则似乎是“隐藏的”，并且至少有一个IP地址链接到Meta员工。Strike 3 Holdings 是一家成人影片公司，拥有超过 2500 万的月访问量，以好莱坞风格和高品质著称。

Meta的AI训练策略与潜在危害

Strike 3 Holdings 指控 Meta“故意”侵犯了“至少 2,396 部电影”的版权，这是其通过 seeding 热门高质量色情内容来尽快下载 TB 级数据的策略的一部分。据称，Meta 在下载内容后“有时会持续数天、数周甚至数月”地 seeding 这些内容，并且这些电影可能也被秘密用于训练 Meta 的 AI 模型。

成人网站运营商向法院解释说，BitTorrent 的协议建立了一种“以牙还牙”的机制，可以“奖励那些传播最受欢迎内容的用户”。它声称 Meta 利用了这一系统，通过“经常”盗版成人视频，这些视频“通常是 BitTorrent 网站上侵权最多的文件”。

这些策略据称给了 Meta 几个优势，使其网站更难竞争，包括可能在没有年龄检查的情况下免费向未成年人分发视频。诉讼称，“Meta 专门针对原告的内容进行分发，以加速其下载大量其他内容。”虽然 Meta 声称它“编写了一个脚本来有意识地限制在 BitTorrent 上分发流行的书籍”，但 Strike 3 Holdings 认为“调查可能会显示”Meta“持续”分发其成人视频，专门作为规避 BitTorrent 协议的策略。

到目前为止，Strike 3 Holdings 表示，它记录了至少五个案例，其中 Meta“手动挑选”了来自特定网站的成人视频，以便进行“密集的发行”，以避免 seeding 它通过 BitTorrent 采购的其他内容。Strike 3 Holdings 声称，“长时间停留在 swarm 中的唯一原因是利用扩展的分发作为以牙还牙的货币，以便有效地从 BitTorrent 下载数百万个其他文件。”

Strike 3 Holdings 正在寻求巨额赔偿和禁令，以永久阻止 Meta 盗版其视频。该公司还希望 Meta 从其 AI 训练数据和现有 AI 模型中删除任何被盗视频。该公司声称，Meta 可以使用其高质量的受版权保护的作品（提供罕见的“自然的、以人为中心的图像”的长剪辑，“在普通视频中找不到的身体部位”和“独特”形式的“人际互动和面部表情”）来创建一个竞争对手的成人视频生成器，该生成器“最终可以以很少的成本创建相同的内容”。

Strike 3 Holdings 声称，“当 Meta 无视联邦和州法律并免费提供原告的作品时，原告无法与 Meta 竞争。”“这将有效地消除原告未来在市场上竞争的能力”，以及其品牌“作为受人尊敬和合乎道德的高质量成人电影来源的来之不易的声誉，因为可能会允许未成年人在未经原告同意的情况下不受限制地访问原告的内容。”

针对这一诉讼，Meta 的一位发言人表示：“我们正在审查起诉书，但不认为 Strike 的说法是准确的。”

证据指向Meta更多不当行为

为了支持其版权侵权主张，Strike 3 Holdings 搜索了“其 VXN 扫描和交叉引用工具捕获的侵权记录档案”，发现了 47 个“被识别为 Facebook 拥有的侵犯其受版权保护作品的 IP 地址”。据称，这些数据表明“多年来持续存在未经授权的分发行为”。

AI快讯

据称，Meta 在 Strike 3 Holdings 向这家科技巨头提供证据后并未停止其 seeding 行为，尽管 IP 数据据称已通过一家名为 Maxmind 的行业领先供应商进行了验证。Strike 3 Holdings 分享了 MaxMind 调查结果的屏幕截图。Meta 还涉嫌通过“六个虚拟专用云”来“隐藏其 BitTorrent 活动”，这些云形成了一个“隐形网络”的“隐藏 IP 地址”，该诉讼称，这似乎牵涉到一家“主要的第三方数据中心提供商”作为 Meta 盗版行为的合作伙伴。

对这些 IP 地址的分析据称发现了“与 Meta 公司 IP 地址上看到的侵权模式相匹配的数据模式”，并包括“BitTorrent 网络上其他活动的证据，包括电子书、电影、电视节目、音乐和软件”。Strike 3 Holdings 声称，在两组 IP 地址上记录的看似非人类的模式表明这些数据用于 AI 训练，而不是用于个人用途。

考虑到 Meta 员工开玩笑说“从公司笔记本电脑上 torrenting 感觉不对”，Strike 3 Holdings 进一步声称，它发现“至少有一个 Meta 员工的住宅 IP 地址”侵犯了其受版权保护的作品。这表明 Meta 可能指示员工在办公室外 torrent 盗版数据，以掩盖数据轨迹。

成人网站运营商未在其投诉中识别员工或主要数据中心，并在随后的文件中指出，它认识到共享敏感信息对 Meta 业务及其员工隐私的风险。该公司声称，总共有证据表明与 Meta 公司 IP 相关的“超过 100,000 笔未经授权的发行交易”。Strike 3 Holdings 希望这些证据能让陪审团认定 Meta 对直接版权侵权行为负责，或者如果陪审团发现 Meta 通过使用第三方数据中心或员工的家庭 IP 地址成功地与自己保持距离，则指控 Meta 犯有间接和替代版权侵权行为。

诉状称，“Meta 有权且有能力监督和/或控制其自己的公司 IP 地址，以及托管在离线基础设施数据中心的 IP 地址，以及其员工和代理人通过其住宅 IP 侵犯原告作品的行为，方法是使用 Meta 的 AI 脚本通过 BitTorrent 获取内容。”

对AI训练数据的伦理拷问

Meta 涉嫌盗用版权内容用于AI训练的事件，再次引发了关于AI伦理和数据合规性的讨论。在AI技术飞速发展的今天，如何确保AI训练数据的合法性和合规性，已经成为一个亟待解决的问题。一方面，企业需要加强版权意识，尊重知识产权，避免侵权行为的发生；另一方面，也需要建立完善的法律法规和行业规范，为AI训练数据的获取和使用提供明确的指导。

此外，AI模型的训练也需要更加透明和可追溯。企业应该公开AI训练数据的来源和使用情况，接受社会监督，确保AI技术的健康发展。只有在尊重版权、保护用户隐私的前提下，AI技术才能真正为人类社会带来福祉。

未来展望

Meta 盗用版权内容用于AI训练的事件，无疑给整个AI行业敲响了警钟。未来，随着AI技术的不断发展，类似的版权纠纷可能会更加频繁地发生。因此，我们需要从法律、伦理和技术等多个层面，共同应对AI时代可能面临的版权挑战。

具体而言，可以考虑以下几个方面：

完善法律法规：针对AI训练数据的版权问题，制定更加明确和具体的法律法规，明确侵权行为的界定和处罚标准，为版权保护提供法律保障。
建立行业规范：由行业协会牵头，制定AI训练数据的获取和使用规范，引导企业加强版权意识，尊重知识产权。
加强技术监管：利用技术手段，对AI训练数据进行溯源和监管，防止盗版和侵权行为的发生。
推动国际合作：加强国际间的交流与合作，共同应对AI时代的版权挑战，推动全球AI技术的健康发展。

总之，Meta 盗用版权内容用于AI训练的事件，是一面镜子，反映出AI发展过程中存在的诸多问题。只有正视这些问题，并采取积极有效的措施加以解决，才能确保AI技术在健康、可持续的轨道上发展，为人类社会创造更大的价值。