AI搜索引擎数据窃取争议:Reddit起诉Perplexity的深层博弈

1

在数字内容价值日益凸显的今天,一场围绕数据获取与内容所有权的法律战正在悄然展开。2025年10月,知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼,指控其通过Google搜索结果非法抓取Reddit内容。这一案件不仅涉及技术层面的数据获取方式,更触及了数字时代内容所有权、数据边界与商业模式的深层问题。本文将从案件背景、技术手段、法律争议、行业影响等多个维度,全面剖析这场纠纷背后的复杂博弈。

案件背景:Reddit的指控与Perplexity的反击

Reddit在2025年10月22日提交的诉讼文件中,将Perplexity及其三家合作伙伴——立陶宛数据爬取公司Oxylabs UAB、前俄罗斯僵尸网络AWMProxy以及德克萨斯州的SerpApi——告上法庭。Reddit指控这些公司合谋通过Google搜索结果非法抓取Reddit内容,绕过了Reddit和Google投入巨资建立的反爬虫保护措施。

Reddit在诉讼中将这些公司比作"银行劫匪",声称他们"当场抓获"了Perplexity"偷窃"其"答案引擎"本不应访问的内容。Reddit指出,Perplexity声称自己是"世界上第一个答案引擎",但实际上"没有任何突破性",其答案引擎只是利用另一家公司的大型语言模型解析大量Google搜索结果,尝试基于这些结果回答用户问题。

为了证明其指控,Reddit采取了一种巧妙的测试方法:发布仅在Google搜索结果页面(SERP)中才能找到的内容,并在"几小时内",针对Perplexity的"答案引擎"的查询就产生了该测试帖子的内容。Reddit在诉讼中强调:"Perplexity能够获取该Reddit内容并用于其'答案引擎'的唯一途径是,它和/或其共同被告从Google SERP中抓取了该Reddit内容,然后迅速将这些数据整合到其答案引擎中。"

面对这些指控,Perplexity在Reddit上发表声明否认任何不当行为,将其答案引擎描述为总结Reddit讨论并在答案中引用Reddit线程,就像任何在Reddit上分享链接或发布内容的人可能做的那样。Perplexity暗示Reddit试图通过为Reddit内容勒索许可费来攻击开放互联网,尽管知道Perplexity不训练基础模型。Perplexity声称,Reddit的最终目的是利用Perplexity诉讼作为"Reddit在与Google和OpenAI的培训数据谈判中展示力量的手段"。

Perplexity在声明中写道:"我们不会勒索,也不会帮助Reddit勒索Google,即使他们是我们的(巨大)竞争对手。Perplexity会公平竞争,但我们不会屈服。我们不会让更大的公司在我们身上玩花招。"

技术层面:爬取手段与反爬虫技术的军备竞赛

这场纠纷的核心在于技术层面的数据获取与防护之间的博弈。Reddit在诉讼中披露,为了阻止数据爬取,平台采取了多种措施,包括"注册用户身份验证限制、IP速率限制、验证码机器人保护和异常检测工具"。

同样,Google也依赖"反爬虫系统和专门团队,防止对其产品和服务的未经授权访问",Reddit指出,Google禁止对其SERP的"未经授权的自动化访问"。为了支持其主张,Reddit传唤Google以了解这家搜索巨头如何阻止AI爬虫访问SERP上的内容。

Google确认其依赖名为"SearchGuard"的技术访问控制系统,该系统旨在防止自动化系统访问和获取大量搜索结果和索引数据,同时允许单个用户——即人类——访问Google的搜索结果,包括包含Reddit数据的结果。

Reddit的诉讼解释道:"SearchGuard通过设置无法被自动化系统在常规过程中解决的障碍挑战来防止对Google搜索数据的未经授权访问,除非这些系统采取积极行动规避SearchGuard系统。"

爬取产业链的技术手段

根据Reddit的指控,三家公司参与了与Perplexity的合谋——一家名为Oxylabs UAB的"立陶宛数据爬取公司"、一个被称为"前俄罗斯僵尸网络"的AWMProxy,以及一家销售搜索引擎爬取服务的德克萨斯州公司SerpApi。

Reddit指控Oxylabs"明确表示其爬取服务旨在规避Google的技术措施",并指向Oxylabs的一个名为"如何抓取Google搜索结果"的网站。同样,SerpApi也推销相同的服务,包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器,SerpApi最快的选项使用"服务器集群来躲避、避免或通过蛮力有效措施Google为阻止对搜索引擎结果的自动化访问而采取的措施"。

Reddit还指控SerpApi向用户提供"减少网络爬取时被阻止几率的技巧",例如发送"虚假用户代理字符串"、切换IP地址以避免来自同一地址的多个请求,以及使用代理"使流量看起来像常规用户流量"并因此"冒充"用户流量。

根据Reddit的说法,这三家公司通过"将网络爬虫伪装成普通人(除其他技术外)来规避或绕过旨在阻止他们的安全限制"。从Google获取信息的传票显示,在7月两周的时间内,他们抓取了"近三十亿"个包含Reddit文本、URL、图像和视频的SERP。

法律争议:内容所有权与数据边界的模糊地带

这场纠纷涉及多个法律层面的争议,包括内容所有权、数据获取的合法性以及数字版权保护等。

Reddit声称,规避这些反爬虫系统违反了《数字千年版权法》,以及禁止不公平交易和不正当获利的规定。显然,Google的SearchGuard目前可能是被指控的合谋者最容易绕过的系统,这些合谋者据称在意识到无法直接在Reddit平台上访问内容后,转而掠夺Google SERP。

值得注意的是,Reddit在其诉讼中指出,其当前的robots.txt文件(robots.txt)表示:"Reddit相信开放互联网,但不滥用公共内容。"这一声明直接回应了Perplexity可能提出的"开放互联网"辩护。

双方立场的根本分歧

Reddit与Perplexity之间的分歧不仅限于法律层面,更反映了关于数据所有权和互联网本质的哲学差异。

Reddit首席法律官本·李(Ben Lee)在提供给Ars的声明中表示,Oxylabs、AWMProxy和SerpApi是"爬取的教科书示例",它们"规避技术保护措施以窃取数据,然后将其出售给渴望训练材料的客户"。

李说:"无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将网络爬虫伪装成从Google搜索窃取Reddit内容。Perplexity至少是这些爬取者之一的自愿客户,选择购买窃取的数据,而不是与Reddit本身签订合法协议。"

然而,Perplexity在Reddit上的反驳中否认了Reddit关于Perplexity忽视Reddit内容许可要求的说法。

Perplexity表示:"不实。每当有人询问我们关于内容许可的问题时,我们解释说,Perplexity作为应用层公司,不训练AI模型的内容。从来没有。因此,我们不可能签署许可协议这样做。"

Perplexity声称:"Reddit坚持要我们付费,尽管我们合法访问Reddit数据,屈服于强硬手段不是我们的做事方式。"

Perplexity发言人杰西·德怀尔(Jesse Dwyer)告诉Ars,该公司选择在Reddit上发布声明,"说明一个简单的观点"。

德怀尔说:"这是一个对任何人都可公开访问的Reddit链接,但根据Reddit诉讼的逻辑,如果你以任何方式提及或引用它(这是你作为记者的工作),他们可能会起诉你。"

商业影响:数据价值与商业模式的重塑

这场纠纷对数字内容行业和AI领域的商业模式产生了深远影响。Reddit声称,其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受到"损害"。没有确保Perplexity等公司尊重Reddit政策的许可协议,Reddit无法控制谁有权访问数据、如何使用数据以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外,Reddit担心Perplexity的变通方法可能会流行开来,可能破坏Reddit的其他许可协议。与此同时,Reddit指出,它必须投入"大量资源"用于反爬虫技术,最终导致Reddit遭受损失,包括"利润损失和商业机会、声誉损害和用户信任丧失"。

Reddit希望法院能颁布禁令,禁止公司从Google SERP抓取Reddit内容。它还希望公司被禁止出售Reddit数据以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。

如果Reddit胜诉,公司可能需要支付大量损害赔偿或交出出售Reddit内容所获的利润。

行业连锁反应

这场纠纷可能引发整个行业的连锁反应,重塑内容平台、搜索引擎和AI公司之间的关系。

首先,它可能加速内容平台与AI公司之间的许可协议谈判。Reddit可能利用这次诉讼作为与Google和OpenAI等大型科技公司谈判培训数据的筹码,正如Perplexity所声称的那样。

其次,它可能导致反爬虫技术的进一步发展和强化。Reddit和Google可能会投入更多资源开发更先进的技术保护措施,而数据爬取公司则可能开发更复杂的规避技术。

最后,它可能推动关于数据所有权和使用的法律框架的完善。随着AI技术的发展,关于公共数据的使用边界、内容所有权的定义以及合理使用的范围等问题,可能需要更明确的法律指导。

伦理思考:开放互联网与数据保护的平衡

这场纠纷引发了对数字时代伦理边界的深入思考:在开放互联网与数据保护之间,我们应如何找到平衡点?

一方面,开放互联网的理念强调信息的自由流动和公共数据的可访问性。正如SerpApi在其声明中所强调的:"公共数据的爬取和解析受到美国宪法第一修正案的保护。我们非常重视言论自由。"Oxylabs的首席治理战略总监德纳斯·格里鲍斯卡斯(Denas Grybauskas)也辩称,"没有公司应该声称不属于他们的公共数据"。

另一方面,内容平台投入大量资源创建和维持社区,生成有价值的内容和数据。如果这些内容被未经授权地抓取和使用,平台可能会失去商业动力,最终损害用户利益。

在AI时代,这一伦理问题变得更加复杂。AI模型的训练依赖于大量数据,而这些数据往往来自互联网上的公共内容。然而,随着AI技术变得越来越强大,其创造的价值也越来越大,原始数据提供者是否应该获得某种形式的补偿?

Reddit的诉讼可以被视为对这一问题的回应:平台希望确保其数据被合理使用,并获得相应的价值回报。而Perplexity等公司则坚持开放互联网的原则,反对将公共数据货币化的尝试。

未来展望:数字内容生态系统的重构

Reddit与Perplexity的纠纷可能预示着数字内容生态系统即将迎来重大重构。随着AI技术的快速发展,内容、数据和AI之间的关系将变得更加复杂和紧密。

可能的发展方向

  1. 许可协议的普及:内容平台与AI公司之间可能形成更标准化的许可协议,明确数据使用的范围、方式和补偿机制。

  2. 技术保护措施的强化:反爬虫技术可能会变得更加先进,同时数据获取技术也会不断演进,形成持续的技术军备竞赛。

  3. 法律框架的完善:随着类似案例的增加,法律体系可能会发展出更明确的规则,界定数据所有权、使用边界和合理使用的范围。

  4. 商业模式创新:内容平台可能会探索新的商业模式,在保护数据价值的同时,允许AI公司以合规方式使用数据。

对行业参与者的启示

这场纠纷为行业参与者提供了重要启示:

  • 内容平台:需要更加积极地保护自己的数据资产,同时探索与AI公司合作的创新模式。
  • AI公司:需要更加重视数据获取的合法性,避免因短期利益而损害长期发展。
  • 搜索引擎:需要平衡开放访问与防止数据滥用之间的关系,维护搜索生态的健康。
  • 监管机构:需要密切关注AI时代的数据使用问题,适时制定或更新相关法规。

结语:走向更加成熟的数字生态

Reddit与Perplexity之间的纠纷是数字内容生态系统发展过程中的一个重要里程碑。它暴露了当前法律和技术框架在应对AI时代数据使用挑战时的不足,同时也为行业参与者提供了重新思考数据价值、所有权和边界的契机。

在未来,我们可能需要发展更加成熟和平衡的数字生态系统,既能保护内容创造者的权益,又能促进创新和知识的自由流动。这需要平台、AI公司、搜索引擎、用户和监管机构的共同努力,通过对话、合作和适当的监管,找到多方共赢的解决方案。

随着这场法律战的继续,它不仅将影响相关公司的命运,也可能为整个数字内容行业设定新的标准和期望。在一个数据成为关键生产要素的时代,如何合理地获取、使用和保护数据,将决定谁能在这个新兴的数字经济中取得成功。