Meta AI训练数据源惊曝盗版丑闻:版权、隐私与技术伦理的拷问

1

人工智能技术的飞速发展,对海量数据的需求达到了前所未有的程度。然而,数据获取的途径及其合法性,正逐渐成为技术伦理与法律规制的焦点。近期,科技巨头Meta在AI模型训练数据来源方面再次面临严峻的法律挑战,这不仅是简单的版权纠纷,更触及了AI发展过程中数据伦理的深层问题。

此前,已有出版商和作者指控Meta利用BitTorrent网络非法获取了数以TB计的盗版书籍用于其AI模型训练,其中包括超过81.7TB的数据。尽管Meta在此前的大部分索赔中取得了胜利,并否认了其通过“做种”或“吸血”方式上传盗版数据的行为,但新的诉讼似乎为这些质疑提供了更为具体的证据链,可能改变此前诉讼的走向。

Strike 3 Holdings的最新指控

上周,一家名为Strike 3 Holdings的成人内容公司在美国加州地方法院提起诉讼,为这场日益复杂的版权争议再添波澜。Strike 3 Holdings声称其拥有超过2500万月访问量的合法成人内容平台,致力于提供“好莱坞级质量”的成人视频,是“道德来源”的典范。通过其专有的BitTorrent追踪工具,该公司声称发现Meta多年来(至少从2018年起)一直在BitTorrent网络上非法下载并积极“做种”其受版权保护的内容。

诉讼指出,Strike 3 Holdings追踪到的部分IP地址明确注册为Meta所有,而另一些则似乎被“隐藏”,甚至有一个IP地址被追溯到了一名Meta的员工。这表明Meta可能采取了多重策略来掩盖其非法下载和分享行为。

AI训练策略与潜在危害

Strike 3 Holdings声称,Meta“故意且有目的地”侵犯了至少2,396部电影的版权。据称,Meta采取了一种策略,通过“做种”流行的高质量成人内容来尽可能快地下载海量数据。这些电影在下载后有时会持续“做种”数天、数周甚至数月。诉讼猜测,这些内容很可能也被秘密用于Meta的AI模型训练。

AI快讯

成人内容提供商向法庭解释道,BitTorrent协议基于一种“以牙还牙”的机制,即“奖励那些分发最受欢迎内容的用户”。Strike 3 Holdings指控Meta利用了这一系统,经常盗版那些在BitTorrent网站上“最常被侵权”的成人视频,有时甚至在电影发布的当天就开始进行。

这种策略被指控为Meta带来了多重优势,但也对Strike 3 Holdings的合法业务造成了损害。其中最令人担忧的指控是,Meta的行为可能导致这些视频在未经年龄验证的情况下免费分发给未成年人,尤其是在那些已经对成人内容访问实施年龄限制的州。

诉讼进一步指出,Meta“明确瞄准”了原告的内容进行分发,目的是加速其对其他大量内容的下载。尽管Meta曾声称其编写脚本“有意限制在BitTorrent上分发流行书籍”,但Strike 3 Holdings认为,进一步的调查可能会显示Meta“持续”分发其成人视频正是为了绕过BitTorrent协议的限制。

Strike 3 Holdings声称,已记录至少五次Meta“精心挑选”特定网站的成人视频进行“密集分发”,以避免“做种”其他通过BitTorrent获取的内容。该公司认为,持续长时间地在文件共享网络中保持活跃,其唯一理由就是利用“做种”行为作为“以牙还牙”的“货币”,从而高效地从BitTorrent下载数百万其他文件。

寻求赔偿与清除非法数据

Strike 3 Holdings正寻求巨额赔偿,并希望通过禁令永久性阻止Meta继续盗版其视频。更重要的是,该公司要求Meta从其AI训练数据和现有AI模型中删除任何被盗视频。

原告公司声称,Meta可能会利用其高质量的受版权保护作品来创建竞争性的成人视频生成器。这些作品提供了“自然、以人为中心图像”的罕见长镜头,展现了“常规视频中不常见的人体部位”以及“独特的人际互动和面部表情”。如果Meta能以此低成本甚至零成本地生成“相同内容”,将严重威胁到合法内容创作者的生存。

“当Meta无视联邦和州法律,免费提供原告的作品时,原告无法与Meta竞争,”Strike 3 Holdings坚称。“这将有效消除原告未来在市场上的竞争能力”,同时也会损害其品牌作为“高质量成人影片受尊敬和道德来源”的“来之不易的声誉”,因为它可能“在未经原告同意的情况下,让未成年人不受限制地访问原告的内容。”

针对此次诉讼,Meta发言人回应称:“我们正在审查投诉,但认为Strike的指控不准确。”

新证据的揭示

为了支持其版权侵权主张,Strike 3 Holdings搜查了其“由VXN扫描和交叉引用工具捕获的侵权记录档案”,发现了47个“被确认为Facebook拥有的IP地址侵犯了其受版权保护的作品”。这些数据被指控显示了“多年来持续的未经授权分发”。更令人震惊的是,即使Strike 3 Holdings向Meta出示了这些证据——尽管IP数据已通过行业领先的提供商Maxmind验证——Meta也未停止其“做种”行为。

MaxMind追踪结果截图

Meta还被指控试图通过“六个虚拟私人云”(Virtual Private Clouds)组成的“隐形网络”来“隐藏其BitTorrent活动”,这些“隐藏的IP地址”似乎暗示了一家“主要第三方数据中心提供商”也参与了Meta的盗版行为。对这些IP地址的分析据说发现了“与Meta公司IP地址上观察到的侵权模式相匹配的数据模式”,并包含了“BitTorrent网络上其他活动的证据,包括电子书、电影、电视节目、音乐和软件”。这些非人类模式暗示这些数据是为了AI训练而非个人使用。

考虑到此前一名Meta员工曾开玩笑说“从公司笔记本电脑上下载盗版感觉不对”,Strike 3 Holdings进一步指控称,其发现了“至少一个Meta员工的住宅IP地址”侵犯了其版权作品。这可能意味着Meta指示员工在办公室外部下载盗版数据,以模糊数据追踪线索。

Strike 3 Holdings未在诉讼中明确指明涉事员工或主要数据中心提供商,但表示已认识到分享敏感信息对Meta业务和员工隐私的风险。

总计而言,该公司声称证据显示,与Meta公司IP地址相关的“未经授权分发交易超过10万次”。Strike 3 Holdings希望这些证据能促使陪审团认定Meta直接侵犯版权,或者如果陪审团认为Meta通过第三方数据中心或员工家庭IP地址成功规避了责任,则认定Meta构成间接侵权或替代侵权。

“Meta有权并有能力监督和/或控制其自身的公司IP地址,以及在非基础设施数据中心托管的IP地址,以及其员工和代理人通过使用Meta的AI脚本通过BitTorrent获取内容,从而通过其住宅IP侵犯原告作品的行为,”投诉称。

影响与反思

此次诉讼无疑给Meta的AI战略蒙上了一层阴影,也再次敲响了行业警钟。随着AI模型对数据量的渴求不断增长,如何在确保数据合法合规的前提下高效获取高质量数据,成为了摆在所有AI开发者面前的共同难题。这起案件不仅关乎版权保护,更深层次地探讨了技术发展与法律、伦理界限的平衡。

企业在追求技术进步和商业利益的同时,必须承担起相应的社会责任。任何规避法律、侵犯他人知识产权的行为,最终都可能面临严厉的惩罚,并损害企业的声誉。此次案件的结果,无疑将对未来AI训练数据的获取方式、版权保护机制以及技术公司的数据合规实践产生深远影响。它提醒我们,人工智能的“智能”不仅体现在技术算法的精妙,更应根植于伦理道德的坚实基础之上。