AI搜索引擎数据之争：Reddit起诉Perplexity窃取Google搜索内容

在当今快速发展的科技领域，人工智能与数据使用权的边界正变得越来越模糊。2025年10月，社交平台Reddit对AI搜索引擎Perplexity提起了一项引人注目的法律诉讼，指控其通过非法手段从Google搜索结果中抓取Reddit内容。这一案件不仅涉及两家科技公司的商业利益，更触及了数据所有权、互联网开放性和AI训练数据获取等核心问题。

诉讼的核心指控

Reddit在其提交的诉状中指控Perplexity与多家公司合谋，通过非法抓取Google搜索结果中的Reddit内容来运营其所谓的"答案引擎"。Reddit声称，Perplexity虽然自称为"全球首个答案引擎"，但实际上并没有做出任何突破性的创新。

"它的答案引擎只是简单地使用另一家公司的语言模型来解析大量Google搜索结果，试图基于这些结果回答用户的问题，"诉状中写道。"但Perplexity只能通过错误地访问和抓取Google自身搜索引擎中出现的Reddit内容，才能运行其'答案引擎'。"

Reddit将涉嫌参与这一阴谋的公司比作"银行抢劫犯"，声称他们当场抓获了Perplexity"正在偷取"其答案引擎本不应访问的内容。

精心设计的陷阱

为了证明其指控，Reddit采取了一种巧妙的测试方法。他们在Google搜索引擎结果页面(SERP)中发布了只有在这些结果中才能找到的内容，并在"几小时内"，对Perplexity"答案引擎"的查询就产生了该测试帖子的内容。

"Perplexity能够获取该Reddit内容并在其'答案引擎'中使用的唯一方式，是它和/或其共同被告从Google SERP中抓取了该Reddit内容，然后迅速将这些数据整合到其答案引擎中，"Reddit的诉状中明确表示。

这一测试方法被Reddit称为"相当于数字版做了记号的钞票"，成功地证明了Perplexity确实在通过非法手段获取Reddit的内容。

技术层面的博弈

Reddit和Google都投入了大量资源开发反抓取技术。Reddit在诉状中提到，他们使用了多种措施来阻止抓取，包括"注册用户身份识别限制、IP速率限制、验证码机器人保护和异常检测工具"。

同样，Google也依赖于"反抓取系统和专门团队来防止对其产品和服务的未授权访问"。Reddit指出，Google禁止对其SERP进行"未授权的自动化访问"。

为了支持其主张，Reddit传唤了Google，以了解更多关于这家搜索巨头如何阻止AI抓取工具访问SERP上的内容。Google确认，他们依靠一种名为"SearchGuard"的技术访问控制系统，旨在防止自动化系统获取大量搜索结果和索引数据，同时允许个人用户（即人类）访问Google的搜索结果，包括包含Reddit数据的结果。

"SearchGuard通过设置一个挑战障碍来防止未授权访问Google的搜索数据，这个障碍无法被自动化系统在正常过程中解决，除非它们采取积极行动来规避SearchGuard系统，"Reddit的诉状解释道。

被告方的反应

面对Reddit的指控，相关公司表现出了不同的反应。在Reddit的一篇帖子中，Perplexity否认了任何不当行为，描述其答案引擎只是总结Reddit讨论并在答案中引用Reddit帖子，就像任何在Reddit上分享链接或发帖的人可能做的那样。

Perplexity暗示Reddit试图通过为Reddit内容勒索许可费来攻击开放互联网，尽管知道Perplexity并没有训练基础模型。Perplexity声称，Reddit的最终目的是利用Perplexity诉讼作为"在Reddit与Google和OpenAI的训练数据谈判中展示力量的手段"。

"我们不会被勒索，我们也不会帮助Reddit勒索Google，即使他们是我们的（巨大）竞争对手，"Perplexity写道。"Perplexity会公平竞争，但我们不会屈服。我们也不会让大公司利用我们玩壳牌游戏。"

被抓取工具的惊讶

Reddit指控三家公司与Perplexity合谋——一家名为Oxylabs UAB的"立陶宛数据抓取工具"、一个被称为AWMProxy的"前俄罗斯僵尸网络"，以及SerpApi，一家德克萨斯州销售搜索引擎抓取服务的公司。

Reddit声称，Oxylabs明确表示其抓取服务旨在规避Google的技术措施，并指向Oxylabs的一个名为"如何抓取Google搜索结果"的网站。

SerpApi也推广相同的服务，包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器，SerpApi最快的选项使用"服务器群来隐藏、避免或通过蛮力有效压制Google为阻止对搜索引擎结果的自动化访问而采取的措施"。Reddit还指控SerpApi向用户提供"减少网络抓取被阻止几率的技巧"，例如发送"假用户代理字符串"、更改IP地址以避免来自同一地址的多个请求，以及使用代理"使流量看起来像常规用户流量"并因此"冒充"用户流量。

根据Reddit的说法，这三家公司通过"将网络抓取工具伪装成普通人（除其他技术外）来规避或绕过旨在阻止他们的安全限制"。从Google获取信息的传票显示，在7月两周的时间内，他们抓取了"近三十亿"包含Reddit文本、URL、图像和视频的SERP。

商业利益与数据控制权

Reddit显然是在向Perplexity发送停止抓取其答案引擎所引用的Reddit内容的停止侵权信后，才发现这一 alleged 计划的。Reddit声称，Perplexity没有停止抓取，反而将其引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户，Reddit推测这两家公司可能与另外两家公司合谋，试图规避Google的反规避工具。

Reddit首席法律官本·李向Ars提供的声明中表示，Oxylabs、AWMProxy和SerpApi是"抓取工具的典型例子"，它们"规避技术保护措施来窃取数据，然后将其出售给渴望训练材料的客户"。

"无法直接抓取Reddit，他们掩盖身份，隐藏位置，并将网络抓取工具伪装成从Google搜索中窃取Reddit内容，"李说。"Perplexity是至少这些抓取工具之一的自愿客户，选择购买窃取的数据，而不是与Reddit本身签订合法协议。"

法律与伦理的边界

Reddit声称，其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受损。如果没有确保Perplexity等人尊重Reddit政策的许可协议，Reddit无法控制谁可以访问数据、他们如何使用数据，以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外，Reddit担心Perplexity的变通方法可能会流行起来，可能会破坏Reddit的其他许可协议。与此同时，Reddit指出，他们必须投入"大量资源"用于反抓取技术，最终导致Reddit遭受损失，包括"利润损失和商业机会、声誉损害和用户信任丧失"。

Reddit希望法院能发出禁令，禁止公司从Google SERP抓取Reddit内容。他们还希望公司被禁止销售Reddit数据以及"开发或分发用于未授权规避技术控制措施和抓取Reddit数据的任何技术或产品"。

如果Reddit胜诉，公司可能需要支付大量损害赔偿或交出销售Reddit内容所得的利润。

行业影响与未来展望

这一案件对AI行业和数据获取方式可能产生深远影响。随着AI技术的快速发展，高质量训练数据的获取变得越来越重要，而像Reddit这样拥有大量用户生成内容的平台成为了数据宝库。

然而，这也引发了关于数据所有权和使用权的复杂问题。用户在Reddit等平台上发布的内容究竟属于谁？平台是否有权控制这些数据的使用？AI公司如何合法获取训练数据？这些问题都没有简单的答案。

此外，这一案件也可能影响互联网的开放性原则。长期以来，互联网一直建立在开放和共享的原则之上，但随着数据价值的增加，越来越多的平台开始限制对其内容的访问。

技术与法律的平衡

Reddit诉Perplexity案件凸显了技术进步与法律框架之间的紧张关系。一方面，像SearchGuard这样的技术保护措施可以防止未授权的数据抓取；另一方面，这些措施也可能被规避，就像Reddit所指控的那样。

同时，法律框架也需要跟上技术的发展。现有的版权法、计算机欺诈和滥用法案等是否足以应对AI时代的数据获取问题？这需要立法者和司法系统不断思考和调整。

数据经济的未来

随着数据成为数字经济的关键资源，如何平衡数据开放性与数据保护将成为一个重要议题。Reddit诉Perplexity案件只是这一更大辩论中的一个缩影。

未来，我们可能会看到更多类似的案件，涉及不同平台和AI公司之间的数据使用权之争。这些案件将有助于塑造数据经济的规则和边界，影响我们所有人如何使用和受益于互联网上的内容。

结语

Reddit对Perplexity的诉讼不仅仅是两家公司之间的商业纠纷，它反映了AI时代数据获取和使用的深层次问题。随着技术的不断发展，我们需要重新思考数据所有权、互联网开放性和技术保护之间的关系，以建立一个既创新又公平的数字生态系统。