Reddit起诉Perplexity:AI搜索引擎如何通过Google窃取内容数据

1

在数字内容与人工智能技术快速发展的今天,一场关于数据获取与版权保护的法律战正在上演。2025年10月,知名内容平台Reddit对AI搜索引擎Perplexity提起诉讼,指控其通过Google搜索结果非法抓取Reddit内容。这一案件不仅揭示了AI公司获取训练数据的灰色手段,更折射出互联网内容生态与AI技术发展之间的深刻矛盾。

案件背景:Reddit的指控

Reddit在2025年10月22日提起的诉讼中,指控Perplexity与多家公司合谋,通过Google搜索结果非法抓取Reddit内容,同时规避了Google和Reddit投入巨资建立的反抓取技术。Reddit声称,Perplexity表面上宣称自己是"世界上第一个答案引擎",但实际上"并没有做任何突破性的事情"。

Reddit的诉讼文件指出:"它的答案引擎只是使用另一家公司的大型语言模型来解析大量Google搜索结果,看是否可以根据这些结果回答用户的问题。但Perplexity只能通过错误访问和抓取Google自身搜索引擎中出现在Google搜索结果中的Reddit内容来运行它的'答案引擎'。"

Reddit将涉嫌合谋的公司比作"银行抢劫犯",声称他们"当场抓住"了Perplexity,后者窃取了其"答案引擎"本不应访问的内容。

证据收集:"标记钞票"策略

为了证明其指控,Reddit采用了一种巧妙的测试方法,类似于使用"标记钞票"来追踪犯罪活动。Reddit在Google搜索引擎结果页面(SERP)上发布了只有在这些结果中才能找到的内容,并在"几小时内",对Perplexity的"答案引擎"的查询就产生了该测试帖子的内容。

Reddit的诉讼文件解释道:"Perplexity能够获得该Reddit内容然后在其'答案引擎'中使用的唯一方式是,它和/或其共同被告从Google SERP中抓取该Reddit内容,然后Perplexity迅速将这些数据整合到其答案引擎中。"

Perplexity的辩护:"开放互联网"的捍卫者

面对Reddit的指控,Perplexity在Reddit上发布声明否认任何不当行为,描述其答案引擎只是总结Reddit讨论并在答案中引用Reddit线程,就像任何在Reddit上分享链接或发帖的人可能做的那样。

Perplexity暗示Reddit试图为Reddit内容勒索许可费,是在攻击"开放互联网",尽管知道Perplexity不会训练基础模型。Perplexity声称,Reddit的最终目的是利用对Perplexity的诉讼作为"在Reddit与Google和OpenAI的训练数据谈判中展示力量的手段"。

Perplexity在声明中写道:"我们不会被勒索,我们也不会帮助Reddit勒索Google,即使他们是我们的(巨大)竞争对手。Perplexity会公平竞争,但我们不会屈服。我们也不会让更大的公司用我们玩花招。"

值得注意的是,Reddit可能预见了Perplexity对"开放互联网"的辩护,在其投诉中指出:"Reddit当前的Robots排除协议文件('robots.txt')说,'Reddit相信开放互联网,但不滥用公共内容。'"

Google的反抓取技术:SearchGuard系统

为了支持其主张,Reddit向Google发出传票,以了解更多关于这家搜索巨头如何阻止AI抓取工具访问SERP上的内容。Google确认,它依赖于一种名为"SearchGuard"的技术访问控制系统,该系统旨在防止自动化系统访问和获取大量搜索结果和索引数据,同时允许单个用户——即人类——访问Google的搜索结果,包括包含Reddit数据的结果。

Reddit的投诉解释道:"SearchGuard通过设置一个自动化系统在普通过程中无法解决的障碍挑战来防止未经授权访问Google的搜索数据,除非这些系统采取积极行动规避SearchGuard系统。"

被指控的合谋者:三家数据抓取公司

Reddit指控三家公司与Perplexity合谋——一家名为Oxylabs UAB的"立陶宛数据抓取公司",一个被称为"前俄罗斯僵尸网络"的AWMProxy,以及SerpApi,一家德克萨斯州销售搜索引擎抓取服务的公司。

Reddit声称,Oxylabs明确表示其抓取服务旨在规避Google的技术措施,指向一个名为"如何抓取Google搜索结果"的Oxylabs网站。SerpApi也推广相同的服务,包括一些以"荒谬速度"抓取SERP的选项。

根据Reddit的说法,这三家公司通过"将网络抓取工具伪装成普通人(除其他技术外)来规避或绕过旨在阻止他们的安全限制"。从Google获取信息的传票显示,在7月两周的时间内,他们抓取了包含Reddit文本、URL、图像和视频的"近三十亿"个SERP。

各方反应:惊讶与坚定辩护

虽然Ars Technology无法立即联系AWMProxy置评,但其他两家公司对Reddit的诉讼表示惊讶,同时誓言捍卫其商业模式。

SerpApi的发言人告诉Ars,Reddit在提起诉讼前没有通知该公司。

SerpApi的发言人说:"我们强烈不同意Reddit的指控,并打算在法庭上积极为自己辩护。在我们经营的八年里,SerpApi一直合法经营。正如我们网站上所说,'公共数据的爬取和解析受到美国宪法第一修正案的保护。我们非常重视言论自由。'"

Oxylabs的首席治理战略官Denas Grybauskas告诉Ars,Reddit的投诉令人困惑,因为诉讼中涉及的其他公司是"无关且无关联的"。

Grybauskas说:"我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们交谈或传达任何潜在的关注。Oxylabs一直并将继续是公共数据收集的先驱和行业领导者,它不会犹豫对这些指控进行辩护。Oxylabs的立场是,没有公司应该声称不属于自己的公共数据的所有权。这可能只是试图以虚高价格出售相同公共数据的尝试。"

Reddit的担忧:对许可交易的威胁

显然,Reddit在向Perplexity发送停止抓取其答案引擎引用的Reddit内容的停止侵权信后,发现了所谓的计划。Reddit声称,Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户,Reddit假设两者与其他公司合谋规避Google的反规避工具。

Reddit向Ars提供的声明中,首席法律官Ben Lee表示,Oxylabs、AWMProxy和SerpApi是"规避技术保护措施以窃取数据然后出售给渴望训练材料的客户的典型抓取工具"。

Lee说:"无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将网络抓取工具伪装起来,从Google搜索中窃取Reddit内容。Perplexity是至少这些抓取工具之一的自愿客户,选择购买窃取的数据,而不是与Reddit本身签订合法协议。"

技术细节:如何绕过反抓取系统

Reddit在诉讼中详细描述了这些公司如何绕过其反抓取措施。Reddit使用各种措施,如"注册用户身份识别限制、IP速率限制、验证码机器人保护和异常检测工具"。

同样,Google依赖于"反抓取系统和团队,致力于防止未经授权访问其产品和服务",Reddit说, noting Google禁止"未经授权的自动化访问"其SERP。

SerpApi最快的选项使用"服务器集群来躲避、避免或通过蛮力有效措施Google已建立的阻止对搜索引擎结果自动化访问的措施",Reddit声称。SerpApi还 allegedly 向用户提供"减少网络抓取时被阻止几率的技巧,例如发送'假用户代理字符串[s]',转移IP地址以避免来自同一地址的多个请求,并使用代理'使流量看起来像常规用户流量'并因此'模仿'用户流量。"

法律依据:数字千年版权法

Reddit声称,绕过这些反抓取系统违反了《数字千年版权法》,以及反对不公平贸易和不正当获利的规定。似乎,Google的SearchGuard可能是所谓的合谋者目前最容易绕过的系统,这些人据说在意识到无法直接在Reddit平台上访问内容后,转向掠夺Google SERP。

Reddit的诉求:禁令与赔偿

Reddit希望法院授予禁令,禁止公司从Google SERP抓取Reddit内容。它还希望公司被禁止销售Reddit数据,以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。

如果Reddit胜诉,公司可能需要支付大量损害赔偿或交出销售Reddit内容的利润。

行业影响:AI训练数据的灰色地带

这一案件揭示了AI行业获取训练数据的灰色地带。随着大型语言模型的发展,AI公司需要大量数据来训练和改进其系统。然而,这些数据的获取往往涉及复杂的法律和伦理问题。

Reddit的诉讼代表了一种趋势:内容平台开始更加积极地保护其数据,并寻求从AI公司的数据使用中获得经济回报。这可能预示着AI公司与内容平台之间将形成新的关系,可能包括许可协议、收入分享或其他形式的合作。

未来展望:互联网内容生态的重构

这场法律战的结果可能对互联网内容生态产生深远影响。如果法院支持Reddit的主张,可能会为内容平台提供更强的法律工具来保护其数据,这可能改变AI公司获取训练数据的方式。

另一方面,如果Perplexity和其他公司成功辩解其行为是合法的,可能会为AI公司更自由地使用互联网公开数据打开大门,这可能加速AI技术的发展,但也可能引发更多关于数据所有权和使用的争议。

结论:数据、AI与互联网的未来

Reddit对Perplexity的诉讼不仅仅是一个法律案例,它是关于互联网未来的一场更广泛辩论的一部分。随着AI技术的快速发展,我们需要思考如何在保护内容创作者权益的同时,促进创新和信息的自由流动。

这场案件提醒我们,在数字时代,数据已经成为一种宝贵的资源,而围绕数据的获取、使用和保护的争议将继续塑造互联网的演变。无论法院如何裁决,这一案件都将推动行业、立法者和公众更深入地思考AI时代的数据伦理和法律框架。

Reddit与Perplexity法律战

AI数据获取争议