AI搜索引擎数据窃取案:Reddit起诉Perplexity绕过谷歌搜索抓取内容

1

在数字内容与人工智能技术快速发展的今天,数据获取方式的边界问题日益凸显。2025年10月,知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼,指控其通过非法手段绕过谷歌搜索结果页面(SERPs),大规模抓取Reddit内容。这一案件不仅涉及技术层面的数据获取方式,更触及了互联网开放性与知识产权保护之间的深层矛盾。

案件背景:Reddit的指控

Reddit在2025年10月22日提交的诉讼文件中指控,Perplexity与多家公司合谋,通过非法抓取谷歌搜索结果中的Reddit内容,为其"答案引擎"提供支持。Reddit声称,这些公司如同"银行劫匪",被当场抓获"红手"获取其"答案引擎"本不应访问的内容。

Reddit指出,Perplexity声称自己是"世界上第一个答案引擎",但实际上并未做任何突破性工作。其"答案引擎"本质上是通过使用其他公司的大型语言模型来解析大量谷歌搜索结果,试图基于这些结果回答用户问题。然而,Perplexity能够运行其"答案引擎"的唯一方式是错误地访问和抓取出现在谷歌自身搜索结果中的Reddit内容。

Reddit的测试方法:"数字版标记钞票"

为了证明其指控,Reddit采取了一种巧妙的测试方法,类似于警方使用"标记钞票"来追踪银行劫匪。Reddit发布了一些只有在谷歌搜索引擎结果页面(SERPs)中才能找到的内容,并在"几小时内",针对Perplexity的"答案引擎"的查询就产生了该测试帖子的内容。

Reddit在诉讼中强调:"Perplexity能够获取该Reddit内容并在其'答案引擎'中使用的唯一方式是,它和/或其共同被告抓取了谷歌SERPs中的Reddit内容,然后Perplexity迅速将这些数据整合到其答案引擎中。"

Perplexity的回应:"开放互联网"的捍卫者

面对Reddit的指控,Perplexity在Reddit官方论坛上发表声明,否认任何不当行为。Perplexity描述其答案引擎为总结Reddit讨论并在答案中引用Reddit线程,类似于任何在Reddit上分享链接或帖子的人可能做的事情。

Perplexity暗示,Reddit试图为Reddit内容勒索许可费,尽管知道Perplexity不会训练基础模型,这实际上是在攻击开放互联网。Perplexity指控Reddit的最终目的是利用对Perplexity的诉讼作为"Reddit与谷歌和OpenAI在训练数据谈判中展示力量的手段"。

Perplexity在声明中表示:"我们不会被勒索,也不会帮助Reddit勒索谷歌,即使他们是我们的(巨大)竞争对手。Perplexity会公平竞争,但我们不会屈服。我们也不会让更大的公司用我们玩壳牌游戏。"

谷歌的反抓取系统:SearchGuard

为了支持其指控,Reddit传唤谷歌以了解这家搜索巨头如何阻止AI抓取工具访问SERP内容。谷歌确认,它依赖于一种名为"SearchGuard"的技术访问控制系统,旨在防止自动化系统获取大规模搜索结果和索引数据,同时允许个体用户(即人类)访问谷歌的搜索结果,包括包含Reddit数据的结果。

Reddit的诉讼解释道:"SearchGuard通过设置一个障碍挑战来防止未经授权访问谷歌的搜索数据,这个挑战不能被自动化系统在正常过程中解决,除非它们采取积极行动来规避SearchGuard系统。"

被指控的合作伙伴:三家数据抓取公司

Reddit指控三家公司与Perplexity合谋:一家名为Oxylabs UAB的立陶宛数据抓取公司、一个被称为"前俄罗斯僵尸网络"的AWMProxy,以及一家销售搜索引擎抓取服务的德克萨斯公司SerpApi。

Reddit指控Oxylabs明确表示其抓取服务旨在规避谷歌的技术措施,并指向Oxylabs的一个名为"如何抓取谷歌搜索结果"的网站。同样,SerpApi也宣传类似的服务,包括一些以"荒谬速度"抓取SERP的选项。

各公司的回应与防御

面对Reddit的诉讼,各被指控公司表达了惊讶,并誓言捍卫其商业模式。

SerpApi的发言人对Ars表示,Reddit在提起诉讼前没有通知该公司。发言人说:"我们强烈不同意Reddit的指控,并打算在法庭上积极为自己辩护。在我们八年的经营历史中,SerpApi一直合法经营。正如我们网站上所述,'公共数据的抓取和分析受美国宪法第一修正案保护。我们非常重视言论自由。'"

Oxylabs的首席治理策略官Denas Grybauskas告诉Ars,Reddit的投诉令人困惑,因为诉讼中涉及的其他公司"无关且无关联"。他表示:"我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们交谈或沟通任何潜在 concerns。Oxylabs一直并将继续是公共数据收集的先驱和行业领导者,它不会犹豫对这些指控进行辩护。"

争议焦点:许可协议与数据所有权

Reddit声称,在向Perplexity发送停止抓取其"答案引擎"所引用的Reddit内容的 cease-and-desist 信函后,Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户,Reddit推测两者合谋规避谷歌的反规避工具。

Reddit首席法律官Ben Lee在提供给Ars的声明中表示,Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据,然后出售给渴望训练材料的客户"的抓取工具的"教科书示例"。

然而,Perplexity反驳了Reddit关于其忽视Reddit内容许可要求的说法。Perplexity表示:"不真实。每当有人询问我们关于内容许可的问题时,我们解释说Perplexity作为应用层公司,不会在内容上训练AI模型。从来没有过。因此,我们不可能签署此类许可协议。"

法律依据与潜在影响

Reddit在诉讼中指控,绕过这些反抓取系统违反了《数字千年版权法》(DMCA),以及禁止不公平贸易和不正当获利的法律。Reddit声称,其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受到损害。

Reddit希望法院能发出禁令,禁止公司从谷歌SERPs抓取Reddit内容。它还希望公司被阻止销售Reddit数据以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。

如果Reddit胜诉,这些公司可能需要支付巨额赔偿金或交出销售Reddit内容所获利润。

行业影响与未来展望

此案反映了AI发展中数据获取与权益保护之间的紧张关系。随着AI技术的快速发展,高质量训练数据的获取变得越来越重要,而像Reddit这样的内容平台则面临如何保护其内容不被滥用的挑战。

案件的结果可能对整个行业产生深远影响,包括:

  1. 重新定义AI训练数据的获取边界
  2. 影响内容平台与AI公司之间的合作模式
  3. 可能催生新的数据许可和共享协议
  4. 推动更严格的反抓取技术和法律保护措施

技术与法律的博弈

Reddit与Perplexity之间的案件展示了技术与法律之间持续的博弈。一方面,内容平台如Reddit投入大量资源开发反抓取技术;另一方面,数据抓取公司不断寻找新的方法绕过这些保护措施。

谷歌的SearchGuard系统代表了技术反制的一个例子,但Reddit的指控表明,即使是这样的系统也可能被有组织的网络所规避。这促使我们思考:在数字时代,如何平衡信息的自由流通与内容的知识产权保护?

开放互联网与商业利益的平衡

Perplexity声称自己是"开放互联网"的捍卫者,而Reddit则强调支持"开放互联网但不滥用公共内容"。这一争议反映了互联网治理中的一个核心问题:如何在开放性与商业利益之间找到平衡点。

随着AI技术的普及,这一问题变得更加复杂。一方面,AI的发展需要大量数据;另一方面,内容创作者和平台需要保护其权益。未来的解决方案可能需要多方参与,包括技术开发者、内容平台、法律专家和政策制定者。

结论:数据获取的新时代

Reddit对Perplexity的诉讼标志着数据获取新时代的一个重要转折点。随着AI技术的快速发展,数据获取方式的合法性和道德性将面临更多审视。此案的结果可能为行业设定重要先例,影响未来AI训练数据的获取方式。

无论法院如何裁决,这一案件都凸显了在AI时代重新思考数据获取和知识产权保护的必要性。随着技术的进步,我们需要不断更新法律框架和行业规范,以确保创新与权益保护之间的平衡。