AI搜索引擎数据之争:Reddit起诉Perplexity窃取Google搜索内容

1

在当今快速发展的科技领域,人工智能与数据使用权的边界正变得越来越模糊。2025年10月,社交平台Reddit对AI搜索引擎Perplexity提起了一项引人注目的法律诉讼,指控其通过非法手段从Google搜索结果中抓取Reddit内容。这一案件不仅涉及两家科技公司的商业利益,更触及了数据所有权、互联网开放性和AI训练数据获取等核心问题。

诉讼的核心指控

Reddit在其提交的诉状中指控Perplexity与多家公司合谋,通过非法抓取Google搜索结果中的Reddit内容来运营其所谓的"答案引擎"。Reddit声称,Perplexity虽然自称为"全球首个答案引擎",但实际上并没有做出任何突破性的创新。

"它的答案引擎只是简单地使用另一家公司的语言模型来解析大量Google搜索结果,试图基于这些结果回答用户的问题,"诉状中写道。"但Perplexity只能通过错误地访问和抓取Google自身搜索引擎中出现的Reddit内容,才能运行其'答案引擎'。"

Reddit将涉嫌参与这一阴谋的公司比作"银行抢劫犯",声称他们当场抓获了Perplexity"正在偷取"其答案引擎本不应访问的内容。

精心设计的陷阱

为了证明其指控,Reddit采取了一种巧妙的测试方法。他们在Google搜索引擎结果页面(SERP)中发布了只有在这些结果中才能找到的内容,并在"几小时内",对Perplexity"答案引擎"的查询就产生了该测试帖子的内容。

"Perplexity能够获取该Reddit内容并在其'答案引擎'中使用的唯一方式,是它和/或其共同被告从Google SERP中抓取了该Reddit内容,然后迅速将这些数据整合到其答案引擎中,"Reddit的诉状中明确表示。

这一测试方法被Reddit称为"相当于数字版做了记号的钞票",成功地证明了Perplexity确实在通过非法手段获取Reddit的内容。

技术层面的博弈

Reddit和Google都投入了大量资源开发反抓取技术。Reddit在诉状中提到,他们使用了多种措施来阻止抓取,包括"注册用户身份识别限制、IP速率限制、验证码机器人保护和异常检测工具"。

同样,Google也依赖于"反抓取系统和专门团队来防止对其产品和服务的未授权访问"。Reddit指出,Google禁止对其SERP进行"未授权的自动化访问"。

为了支持其主张,Reddit传唤了Google,以了解更多关于这家搜索巨头如何阻止AI抓取工具访问SERP上的内容。Google确认,他们依靠一种名为"SearchGuard"的技术访问控制系统,旨在防止自动化系统获取大量搜索结果和索引数据,同时允许个人用户(即人类)访问Google的搜索结果,包括包含Reddit数据的结果。

"SearchGuard通过设置一个挑战障碍来防止未授权访问Google的搜索数据,这个障碍无法被自动化系统在正常过程中解决,除非它们采取积极行动来规避SearchGuard系统,"Reddit的诉状解释道。

被告方的反应

面对Reddit的指控,相关公司表现出了不同的反应。在Reddit的一篇帖子中,Perplexity否认了任何不当行为,描述其答案引擎只是总结Reddit讨论并在答案中引用Reddit帖子,就像任何在Reddit上分享链接或发帖的人可能做的那样。

Perplexity暗示Reddit试图通过为Reddit内容勒索许可费来攻击开放互联网,尽管知道Perplexity并没有训练基础模型。Perplexity声称,Reddit的最终目的是利用Perplexity诉讼作为"在Reddit与Google和OpenAI的训练数据谈判中展示力量的手段"。

"我们不会被勒索,我们也不会帮助Reddit勒索Google,即使他们是我们的(巨大)竞争对手,"Perplexity写道。"Perplexity会公平竞争,但我们不会屈服。我们也不会让大公司利用我们玩壳牌游戏。"

被抓取工具的惊讶

Reddit指控三家公司与Perplexity合谋——一家名为Oxylabs UAB的"立陶宛数据抓取工具"、一个被称为AWMProxy的"前俄罗斯僵尸网络",以及SerpApi,一家德克萨斯州销售搜索引擎抓取服务的公司。

Reddit声称,Oxylabs明确表示其抓取服务旨在规避Google的技术措施,并指向Oxylabs的一个名为"如何抓取Google搜索结果"的网站。

SerpApi也推广相同的服务,包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器,SerpApi最快的选项使用"服务器群来隐藏、避免或通过蛮力有效压制Google为阻止对搜索引擎结果的自动化访问而采取的措施"。Reddit还指控SerpApi向用户提供"减少网络抓取被阻止几率的技巧",例如发送"假用户代理字符串"、更改IP地址以避免来自同一地址的多个请求,以及使用代理"使流量看起来像常规用户流量"并因此"冒充"用户流量。

根据Reddit的说法,这三家公司通过"将网络抓取工具伪装成普通人(除其他技术外)来规避或绕过旨在阻止他们的安全限制"。从Google获取信息的传票显示,在7月两周的时间内,他们抓取了"近三十亿"包含Reddit文本、URL、图像和视频的SERP。

商业利益与数据控制权

Reddit显然是在向Perplexity发送停止抓取其答案引擎所引用的Reddit内容的停止侵权信后,才发现这一 alleged 计划的。Reddit声称,Perplexity没有停止抓取,反而将其引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户,Reddit推测这两家公司可能与另外两家公司合谋,试图规避Google的反规避工具。

Reddit首席法律官本·李向Ars提供的声明中表示,Oxylabs、AWMProxy和SerpApi是"抓取工具的典型例子",它们"规避技术保护措施来窃取数据,然后将其出售给渴望训练材料的客户"。

"无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将网络抓取工具伪装成从Google搜索中窃取Reddit内容,"李说。"Perplexity是至少这些抓取工具之一的自愿客户,选择购买窃取的数据,而不是与Reddit本身签订合法协议。"

法律与伦理的边界

Reddit声称,其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受损。如果没有确保Perplexity等人尊重Reddit政策的许可协议,Reddit无法控制谁可以访问数据、他们如何使用数据,以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外,Reddit担心Perplexity的变通方法可能会流行起来,可能会破坏Reddit的其他许可协议。与此同时,Reddit指出,他们必须投入"大量资源"用于反抓取技术,最终导致Reddit遭受损失,包括"利润损失和商业机会、声誉损害和用户信任丧失"。

Reddit希望法院能发出禁令,禁止公司从Google SERP抓取Reddit内容。他们还希望公司被禁止销售Reddit数据以及"开发或分发用于未授权规避技术控制措施和抓取Reddit数据的任何技术或产品"。

如果Reddit胜诉,公司可能需要支付大量损害赔偿或交出销售Reddit内容所得的利润。

行业影响与未来展望

这一案件对AI行业和数据获取方式可能产生深远影响。随着AI技术的快速发展,高质量训练数据的获取变得越来越重要,而像Reddit这样拥有大量用户生成内容的平台成为了数据宝库。

然而,这也引发了关于数据所有权和使用权的复杂问题。用户在Reddit等平台上发布的内容究竟属于谁?平台是否有权控制这些数据的使用?AI公司如何合法获取训练数据?这些问题都没有简单的答案。

此外,这一案件也可能影响互联网的开放性原则。长期以来,互联网一直建立在开放和共享的原则之上,但随着数据价值的增加,越来越多的平台开始限制对其内容的访问。

技术与法律的平衡

Reddit诉Perplexity案件凸显了技术进步与法律框架之间的紧张关系。一方面,像SearchGuard这样的技术保护措施可以防止未授权的数据抓取;另一方面,这些措施也可能被规避,就像Reddit所指控的那样。

同时,法律框架也需要跟上技术的发展。现有的版权法、计算机欺诈和滥用法案等是否足以应对AI时代的数据获取问题?这需要立法者和司法系统不断思考和调整。

数据经济的未来

随着数据成为数字经济的关键资源,如何平衡数据开放性与数据保护将成为一个重要议题。Reddit诉Perplexity案件只是这一更大辩论中的一个缩影。

未来,我们可能会看到更多类似的案件,涉及不同平台和AI公司之间的数据使用权之争。这些案件将有助于塑造数据经济的规则和边界,影响我们所有人如何使用和受益于互联网上的内容。

结语

Reddit对Perplexity的诉讼不仅仅是两家公司之间的商业纠纷,它反映了AI时代数据获取和使用的深层次问题。随着技术的不断发展,我们需要重新思考数据所有权、互联网开放性和技术保护之间的关系,以建立一个既创新又公平的数字生态系统。