AI搜索引擎数据窃取案：Reddit起诉Perplexity绕过Google反爬虫系统

在数字内容与人工智能技术飞速发展的今天，数据获取的边界问题日益凸显。2025年10月，知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼，指控其通过绕过Google的反爬虫系统，非法获取Reddit内容。这一案件不仅涉及两家科技公司的商业利益，更触及了AI训练数据获取、数字版权保护以及互联网开放与私有之间的深刻矛盾。

Reddit的指控："银行劫匪"式的数据窃取

Reddit在2025年10月22日提交的诉讼文件中，将Perplexity及其合作伙伴描述为"银行劫匪"，声称他们通过精心策划的阴谋，从Google搜索结果中窃取Reddit内容。Reddit认为，Perplexity虽然自称是"世界上第一个答案引擎"，但实际上"没有做任何突破性的事情"。

诉讼文件指出："它的答案引擎只是使用另一家公司的大型语言模型来解析大量Google搜索结果，看是否可以根据这些结果回答用户的问题。但Perplexity只能通过错误地访问和抓取Google自身搜索引擎中出现在Google搜索结果中的Reddit内容来运行它的'答案引擎'。"

为了证明其指控，Reddit采取了一种巧妙的测试方法。他们在Google搜索结果页面中发布了只有在这些页面才能找到的内容，然后在"几小时内"，对Perplexity的"答案引擎"查询就产生了该测试帖子的内容。

Reddit在诉讼中强调："Perplexity能够获取该Reddit内容并将其用于其'答案引擎'的唯一方式是，它和/或其共同被告从Google SERP中抓取了该Reddit内容，然后Perplexity迅速将这些数据整合到其答案引擎中。"

Perplexity的反击："开放互联网"的捍卫者

面对Reddit的指控，Perplexity在其Reddit官方帖子中否认了任何不当行为，将自身描述为只是总结Reddit讨论并在答案中引用Reddit线程，就像任何在Reddit上分享链接或发布内容的人可能做的那样。

Perplexity声称，尽管知道Perplexity不训练基础模型，Reddit仍试图通过要求Reddit内容的许可使用费来攻击开放互联网。Perplexity推测，Reddit的最终目的是利用对Perplexity的诉讼作为"Reddit与Google和OpenAI就训练数据进行谈判的展示力量"。

Perplexity在声明中写道："我们不会被勒索，我们也不会帮助Reddit勒索Google，即使他们是我们的(巨大)竞争对手。Perplexity会公平竞争，但我们不会屈服。我们也不会让更大的公司用我们玩弄花招。"

值得注意的是，Reddit似乎预料到了Perplexity关于"开放互联网"的辩护，在其投诉中指出："Reddit当前的Robots排除协议文件('robots.txt')说，'Reddit相信开放互联网，但不滥用公共内容。'"

Google的反爬虫系统：SearchGuard技术解析

为了支持其指控，Reddit向Google发出传票，以了解这家搜索巨头如何阻止AI爬虫访问SERP上的内容。Google确认，它依靠一种名为"SearchGuard"的技术访问控制系统，旨在防止自动化系统访问和获取大规模搜索结果和索引数据，同时允许个别用户——即人类——访问Google的搜索结果，包括包含Reddit数据的结果。

Reddit的投诉解释道："SearchGuard通过设置一个自动化系统在普通情况下无法解决的障碍挑战来防止对Google搜索数据的未经授权访问，除非这些系统采取积极行动来规避SearchGuard系统。"

Reddit声称，绕过这些反爬虫系统违反了《数字千年版权法》，以及反对不公平贸易和不正当获利的法律。似乎，对于据称在意识到无法直接在Reddit平台上访问内容后转向掠夺Google SERP的所谓共谋者来说，Google的SearchGuard目前可能是最容易绕过的。

三家被指控的合作伙伴：Oxylabs、AWMProxy和SerpApi

Reddit指控三家公司与Perplexity合谋——一家名为Oxylabs UAB的"立陶宛数据爬虫"、一个被称为AWMProxy的"前俄罗斯僵尸网络"，以及SerpApi，一家销售搜索引擎抓取服务的德克萨斯公司。

Reddit声称，Oxylabs"明确表示其抓取服务旨在规避Google的技术措施"，并指出Oxylabs网站上有一个名为"如何抓取Google搜索结果"的页面。

SerpApi也推广相同的服务，包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器，SerpApi最快的选项使用"服务器集群来躲避、避免或通过蛮力有效措施Google已采取的措施，以阻止对搜索引擎结果的自动化访问"。Reddit还声称，SerpApi向用户提供"减少网络抓取被阻止机会的提示，例如发送'假用户代理字符串'，更改IP地址以避免来自同一地址的多个请求，并使用代理'使流量看起来像常规用户流量'，从而'冒充'用户流量。"

根据Reddit的说法，这三家公司"将他们的网络爬虫伪装成普通人(除其他技术外)以规避或绕过旨在阻止他们的安全限制"。从Google获取信息的传票显示，在7月的两周内，他们抓取了包含Reddit文本、URL、图像和视频的近30亿个SERP。

业界反应：震惊与坚决辩护

Ars Technology无法立即联系AWMProxy置评。然而，其他公司对Reddit的诉讼感到惊讶，同时誓言捍卫其商业模式。

SerpApi的发言人告诉Ars，Reddit在提起诉讼前没有通知该公司。

发言人说："我们强烈不同意Reddit的指控，并打算在法庭上积极为自己辩护。在我们八年的业务中，SerpApi一直合法经营。正如我们网站上所述，'公共数据的爬取和解析受美国宪法第一修正案保护。我们非常重视言论自由。'"

此外，SerpApi"与我们的律师密切合作，确保我们的服务遵守所有适用法律和公平使用原则。SerpApi坚定地支持其商业模式和行为，并将尽最大努力捍卫我们的权利。"

Oxylabs的首席治理战略官Denas Grybauskas告诉Ars，Reddit的投诉似乎令人困惑，因为诉讼中涉及的其他公司"无关且无关联"。

Grybauskas说："我们对这一消息感到震惊和失望，因为Reddit没有尝试直接与我们交谈或沟通任何潜在的关注点。Oxylabs一直并将继续是公共数据收集的先驱和行业领导者，它不会犹豫对这些指控进行辩护。Oxylabs的立场是，没有公司应该声称不属于自己的公共数据所有权。这可能只是试图以 inflated 价格出售相同公共数据的尝试。"

Grybauskas将Oxylabs的业务描述为为"数千家企业和研究人员创造真实世界的价值，例如那些推动开源调查、虚假信息打击或环境监测的人员。"

潜在影响：对AI训练数据获取模式的挑战

这场官司的潜在影响远超Reddit和Perplexity之间的商业纠纷。如果Reddit胜诉，可能会彻底改变AI公司获取训练数据的方式，特别是对于那些依赖从公开网络抓取数据的公司。

首先，案件可能为其他内容平台树立先例，鼓励它们采取更强有力的措施保护其内容不被用于AI训练。这可能包括更严格的技术防护措施，以及更积极的法律行动。

其次，案件可能促使AI公司重新考虑其数据获取策略。如果直接从内容平台抓取数据变得风险过高，AI公司可能需要转向更合法的数据获取渠道，如与内容平台建立许可协议或使用专门提供训练数据的第三方服务。

最后，案件可能引发对"合理使用"原则在AI训练数据获取中应用的更广泛讨论。随着AI技术的快速发展，现有的法律框架可能需要更新，以更好地平衡创新与版权保护之间的关系。

技术与法律的角力：反爬虫技术的进化

Reddit与Perplexity之间的纠纷也反映了技术与法律之间持续的角力。随着反爬虫技术的不断发展，爬虫技术也在不断进化，这种"猫鼠游戏"在数字世界中持续上演。

Reddit在投诉中提到，它使用多种措施来阻止抓取，如"注册用户识别限制、IP速率限制、验证码机器人保护和异常检测工具"。同样，Google依靠"反爬虫系统和专门团队来防止对其产品和服务的未经授权访问"。

然而，正如Reddit所指控的，像Oxylabs和SerpApi这样的公司已经开发了专门规避这些系统的技术。例如，SerpApi的"服务器集群"方法旨在通过分散请求来规避检测，而Oxylabs则专注于提供能够绕过Google技术措施的抓取服务。

这种技术上的军备竞赛凸显了在数字内容保护方面面临的挑战。随着AI技术对训练数据的需求不断增长，这种挑战可能会变得更加复杂。

商业模式的冲突：开放互联网与数据私有化

更深层次上，Reddit与Perplexity之间的纠纷反映了两种互联网商业模式的冲突：开放互联网与数据私有化之间的张力。

Perplexity将自己定位为开放互联网的捍卫者，认为公共数据的爬取和解析受宪法保护。而Reddit则认为，虽然它相信开放互联网，但不接受对其内容的滥用。

这种冲突在AI行业尤为突出。AI公司通常依赖大量公开数据进行训练，而内容平台则希望控制其数据的使用方式。随着AI技术的商业化，这种冲突可能会变得更加尖锐。

Reddit在诉讼中表示，其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受到"损害"。如果没有许可协议确保Perplexity和其他人尊重Reddit政策，Reddit就无法控制谁可以访问数据、他们如何使用数据，以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外，Reddit担心Perplexity的变通方法可能会流行起来，可能会干扰Reddit的其他许可协议。与此同时，Reddit指出，它必须投入"大量资源"用于反抓取技术，最终Reddit遭受损害，包括"损失利润和商业机会、声誉损害和用户信任丧失"。

未来展望：AI内容获取的新范式

Reddit正在寻求法院发布禁令，禁止公司从Google SERP抓取Reddit内容。它还希望公司被禁止销售Reddit数据以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。

如果Reddit胜诉，公司可能需要支付大量损害赔偿或交出销售Reddit内容所获得的利润。

这一案件的结果可能会对AI行业产生深远影响。它可能导致AI公司改变其数据获取策略，从直接抓取转向更合法的渠道。同时，它也可能促使内容平台重新考虑其数据政策，在保护内容所有权与促进创新之间找到更好的平衡。

随着AI技术的不断发展，内容获取的边界问题将继续成为行业关注的焦点。Reddit与Perplexity之间的纠纷只是这一更大趋势的一个缩影，预示着AI行业与内容提供商之间可能出现的更多冲突与合作。

无论案件结果如何，它都突显了在AI时代重新思考数据获取和版权保护的必要性。随着AI技术越来越深入地融入我们的日常生活，找到保护创作者权益同时促进创新的方法将成为行业和监管机构面临的关键挑战。