AI搜索引擎数据争夺战：Reddit起诉Perplexity绕道窃取Google搜索内容

在当今数字化时代，数据已成为互联网企业的核心资产。2025年10月，知名内容平台Reddit对AI搜索引擎Perplexity提起诉讼，指控其通过绕道Google搜索结果的方式非法抓取Reddit内容。这一案件不仅揭示了AI公司与内容平台之间日益紧张的关系，也引发了关于数据获取边界、技术伦理和数字版权的广泛讨论。

案件背景：从直接抓取到间接绕道

Reddit在10月22日提交的诉讼文件中指控，Perplexity与多家公司合谋，通过Google搜索结果非法抓取Reddit内容。这一指控标志着数据抓取策略的转变——当直接抓取受到阻碍时，部分公司开始寻找间接途径获取有价值的内容。

Reddit在诉讼中特别指出，Perplexity号称自己是"世界上第一个答案引擎"，但实际上只是利用其他公司的大型语言模型解析Google搜索结果，试图基于这些结果回答用户问题。然而，Perplexity的"答案引擎"只能通过非法访问和抓取出现在Google搜索结果中的Reddit内容才能运行。

Reddit将涉嫌合谋的公司比作"银行劫匪"，声称自己当场抓获了Perplexity"正在盗窃"其"答案引擎"本不应获取的内容。为了证明这一指控，Reddit进行了一项测试：发布仅在Google搜索引擎结果页面(SERP)中才能找到的内容，结果"在几小时内，对Perplexity'答案引擎'的查询就产生了该测试帖子的内容"。

技术手段：如何绕过反抓取系统

为了理解这一指控的技术层面，我们需要了解Reddit和Google各自采用的防抓取措施。

Reddit在诉讼中提到，平台采用多种措施防止内容被非法抓取，包括"注册用户身份识别限制、IP速率限制、验证码机器人保护和异常检测工具"。同样，Google也依赖"防抓取系统和专门团队，防止对其产品和服务的未经授权访问"，并禁止对SERP进行"未经授权的自动化访问"。

Reddit向Google发出传票，以了解这家搜索巨头如何阻止AI爬虫访问SERP内容。Google确认其依赖名为"SearchGuard"的技术访问控制系统，旨在防止自动化系统获取大量搜索结果和索引数据，同时允许个人用户（即人类）访问Google的搜索结果，包括包含Reddit数据的结果。

Reddit的诉讼解释道："SearchGuard通过设置挑战性障碍来防止未经授权访问Google的搜索数据，这种障碍无法被自动化系统在常规情况下解决，除非它们采取积极行动规避SearchGuard系统。"

涉案公司：从数据采集到商业服务

Reddit指控三家公司与Perplexity合谋：一家名为Oxylabs UAB的立陶宛数据抓取公司、一个被称为"前俄罗斯僵尸网络"的AWMProxy，以及销售搜索引擎抓取服务的德克萨斯州公司SerpApi。

Reddit指控Oxylabs明确表示其抓取服务旨在规避Google的技术措施，并指出其网站"如何抓取Google搜索结果"。

SerpApi也推广相同的服务，包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器，SerpApi最快的选项使用"服务器集群来隐藏、规避或通过蛮力有效措施Google为阻止对搜索引擎结果的自动化访问而采取的措施"。Reddit还指控SerpApi为用户提供"减少网络抓取时被阻止机会的技巧，如发送'虚假用户代理字符串'、更改IP地址以避免来自同一地址的多次请求，以及使用代理'使流量看起来像常规用户流量'并因此'冒充'用户流量"。

根据Reddit的说法，这三家公司"将他们的网络爬虫伪装成普通人（除其他技术外）以规避或绕过旨在阻止他们的安全限制"。从Google获得的传票信息显示，在7月两周的时间内，他们抓取了近30亿个包含Reddit文本、URL、图像和视频的SERP。

各方回应：从震惊到坚决否认

当Reddit提起诉讼时，相关公司纷纷表示震惊。

SerpApi的发言人对Ars表示，Reddit在提起诉讼前没有通知该公司。

"我们强烈不同意Reddit的指控，并打算在法庭上积极为自己辩护，"SerpApi的发言人说。"在我们八年来的业务中，SerpApi一直合法经营。正如我们网站上所述，'公共数据的爬取和解析受美国宪法第一修正案保护。我们极其重视言论自由。"

此外，SerpApi表示"我们与律师密切合作，确保我们的服务遵守所有适用的法律和公平使用原则。SerpApi坚定地支持其商业模式和行为，并将继续最大限度地维护我们的权利。"

Oxylabs的首席治理战略官Denas Grybauskas告诉Ars，Reddit的投诉令人困惑，因为诉讼中涉及的其他公司是"无关且无关联的"。

"我们对这一消息感到震惊和失望，因为Reddit没有尝试直接与我们交谈或沟通任何潜在担忧，"Grybauskas说。"Oxylabs一直并将继续是公共数据采集的先驱和行业领导者，它不会犹豫对这些指控进行辩护。Oxylabs的立场是，没有公司应该声称不属于他们的公共数据所有权。这可能只是试图以 inflated 价格出售相同公共数据的尝试。"

Grybauskas为Oxylabs的业务辩护，称其为"数千企业和研究人员创造真实世界的价值，例如推动开源调查、打击虚假信息或环境监测的那些人"。

"我们坚信，我们的核心业务原则使互联网成为一个更好的地方，并为公众利益服务，"Grybauskas说。"Oxylabs为合规访问公开信息提供基础设施，我们要求每个客户合法使用我们的服务。"

商业动机：从内容许可到商业模式保护

Reddit在诉讼中提到，在向Perplexity发送停止抓取其"答案引擎"所引用Reddit内容的律师函后，情况并未改善，反而Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户，Reddit推测两者合谋规避Google的反规避工具，以及其他公司。

Reddit首席法律官Ben Lee在提供给Ars的声明中表示，Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据，然后将其出售给渴望训练材料的客户的教科书式例子"。

"无法直接抓取Reddit，他们掩盖身份，隐藏位置，并将网络爬虫伪装成普通用户，从Google搜索窃取Reddit内容，"Lee说。"Perplexity至少是这些爬虫之一的自愿客户，选择购买窃取的数据，而不是与Reddit本身签订合法协议。"

然而，Perplexity在Reddit上反驳了Reddit关于其忽视Reddit内容许可要求的说法。

"不真实。每当有人询问我们关于内容许可的问题时，我们解释说，Perplexity作为应用层公司，不在内容上训练AI模型，"Perplexity说。"从来没有。因此，我们不可能签署此类许可协议。"

Perplexity表示，Reddit"坚持要我们付费，尽管我们合法访问Reddit数据"，并称"屈服于强硬手段不是我们的行事方式"。

Perplexity的发言人Jesse Dwyer告诉Ars，该公司选择在Reddit上发布声明，"是为了说明一个简单的观点"。

"这是一个公开的Reddit链接，任何人都可以访问，但根据Reddit诉讼的逻辑，如果你以任何方式提及或引用它（这是你作为记者的工作），他们可能会起诉你，"Dwyer说。

法律依据：从版权法到不公平贸易

Reddit在诉讼中指控，规避这些防抓取系统违反了《数字千年版权法》，以及反对不公平贸易和不正当获利的相关法律。

Reddit声称，其业务和声誉因"数据的挪用和技术控制措施的规避"而受损。如果没有许可协议确保Perplexity和其他人尊重Reddit政策，Reddit无法控制谁有权访问数据、他们如何使用数据，以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外，Reddit担心Perplexity的变通方法可能会被效仿，从而可能破坏Reddit的其他许可协议。与此同时，Reddit指出，它必须投入"大量资源"用于防抓取技术，最终导致Reddit遭受损失，包括"利润和商业机会损失、声誉损害和用户信任丧失"。

行业影响：从技术边界到商业模式创新

这一案件对AI行业和内容平台生态系统产生了深远影响。

首先，它引发了关于AI训练数据获取边界的讨论。随着AI技术的快速发展，高质量训练数据的获取变得越来越重要，但同时也带来了法律和伦理问题。Perplexity与Reddit的纠纷表明，AI公司需要更加谨慎地考虑其数据来源的合法性。

其次，这一案件可能推动防抓取技术的发展。Reddit和Google已经在投入大量资源开发防抓取技术，如Google的SearchGuard。未来，我们可能会看到更多创新的技术解决方案，以保护内容免受未经授权的抓取。

第三，这一案件可能影响AI公司与内容平台之间的商业关系。目前，许多AI公司通过抓取公开内容来训练其模型，但这一案件表明，内容平台可能会寻求更严格的许可协议和补偿机制。

未来展望：从法律诉讼到行业规范

Reddit希望法院能够发出禁令，禁止公司从Google SERP抓取Reddit内容。它还希望公司被禁止销售Reddit数据以及"开发或分发用于未经授权规避技术控制措施和抓取Reddit数据的任何技术或产品"。

如果Reddit胜诉，相关公司可能需要支付巨额赔偿金或交出销售Reddit内容所获得的利润。

这一案件的结果可能会对整个AI行业产生深远影响。它可能会确立新的法律先例，规范AI训练数据的获取方式，并推动内容平台与AI公司之间建立更健康的商业关系。

Reddit与Perplexity法律纠纷

技术伦理：在创新与保护之间寻找平衡

Reddit与Perplexity的纠纷也引发了关于技术伦理的讨论。一方面，技术创新需要自由获取信息和数据的权利；另一方面，内容创造者和平台需要保护其投资和知识产权。

在数字时代，我们需要在促进创新和保护知识产权之间找到平衡点。这可能需要制定新的法律法规，建立更明确的数据使用规范，以及开发既能保护内容又能促进创新的技术解决方案。

商业模式的演变：从免费到价值交换

这一案件也反映了互联网商业模式的演变。过去，许多公司依靠免费获取公开内容来构建其业务。然而，随着内容价值的提升和知识产权意识的增强，这种模式正面临挑战。

未来，我们可能会看到更多基于价值交换的商业模式，即AI公司通过支付许可费用或其他形式的价值交换来获取内容，而不是简单地抓取公开数据。这种转变可能会推动整个行业向更可持续的方向发展。

数据抓取技术示意图

结论：数据时代的法律与商业新格局

Reddit起诉Perplexity的案件不仅仅是一个法律纠纷，它反映了数字时代数据获取与保护的新格局。随着AI技术的快速发展，这一案件可能会成为确立数据使用边界的重要先例。

无论案件结果如何，它都提醒我们，在数字时代，数据已成为核心资产，而数据的获取、使用和保护需要建立在明确的法律框架和商业伦理之上。未来，AI公司与内容平台之间的关系可能会更加复杂，但也可能催生更健康、更可持续的商业模式。

这一案件也为我们提供了一个机会，重新思考如何在促进技术创新的同时保护知识产权，如何在开放互联网与内容保护之间找到平衡点。只有通过多方对话和合作，我们才能构建一个既鼓励创新又尊重创作者权益的数字生态系统。