AI搜索引擎数据争议：Reddit起诉Perplexity非法抓取Google搜索内容

在数字时代，数据已成为人工智能发展的核心燃料。然而，数据的获取与使用边界问题日益凸显。2025年10月，知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼，指控其通过非法手段从Google搜索结果中抓取Reddit内容，引发了关于数据所有权、技术防护与AI发展伦理的广泛讨论。

诉讼核心："银行抢劫者"式的数据获取

Reddit在诉讼中将Perplexity及其合作伙伴描述为"银行抢劫者"，声称其"当场被抓"（red-handed）在窃取本不应访问的内容。Reddit指控Perplexity与多家公司合谋，通过绕过Google和Reddit的反抓取系统，非法获取Reddit内容用于其"答案引擎"。

Reddit认为，Perplexity虽然自称"世界首个答案引擎"，但实际上"没有做任何突破性工作"。其所谓的创新，实质上是利用其他公司的大型语言模型解析Google搜索结果，而其中大量内容来自Reddit。

"数字标记钞票"测试法

为了证明其指控，Reddit采取了一种独特的测试方法——在Google搜索结果中发布特定内容，作为"数字标记钞票"。令人震惊的是，"在几小时内，对Perplexity'答案引擎'的查询就产生了该测试帖子的内容"。Reddit坚称，Perplexity唯一能获取这些内容的方式是通过抓取Google搜索结果中的Reddit数据。

这种测试方法不仅展示了Reddit的技术能力，也揭示了AI搜索引擎在数据获取上的灰色地带。当直接抓取Reddit内容变得困难时，这些公司转而通过Google作为"中转站"获取数据，形成了一种迂回的数据获取策略。

技术防护与反制措施

Reddit和Google都投入了大量资源开发反抓取技术。Reddit采用"注册用户识别限制、IP速率限制、验证码机器人保护以及异常检测工具"等多种措施保护其内容。而Google则开发了名为"SearchGuard"的技术访问控制系统，专门防止自动化系统批量获取搜索结果和索引数据。

SearchGuard通过设置"屏障挑战"来阻止未经授权的访问，这种挑战无法被普通自动化系统解决，除非采取积极行动绕过该系统。Reddit认为，绕过这些系统违反了《数字千年版权法》以及关于不公平贸易和不正当获利的法律。

被告方回应："开放互联网"的捍卫者

面对诉讼，Perplexity否认任何不当行为，声称其答案引擎只是总结Reddit讨论并在答案中引用Reddit帖子，就像任何在Reddit上分享链接或发布内容的用户一样。Perplexity指责Reddit试图为Reddit内容勒索许可费，破坏开放互联网的原则。

Perplexity暗示，Reddit的真正目的是利用此次诉讼作为"在Reddit与Google和OpenAI的训练数据谈判中展示力量的手段"。该公司在Reddit上声明："我们不会被勒索，也不会帮助Reddit勒索Google，即使他们是我们的（巨大）竞争对手。Perplexity会公平竞争，但我们不会屈服。我们不会让更大的公司用我们玩壳牌游戏。"

三家被指控的合作伙伴

Reddit指控三家公司与Perplexity合谋：立陶宛数据抓取公司Oxylabs UAB、前俄罗斯僵尸网络AWMProxy以及德克萨斯州的SerpApi公司。

Oxylabs：Reddit指控其明确表示其抓取服务旨在规避Google的技术措施，并指向其名为"如何抓取Google搜索结果"的网站。
SerpApi：被指控提供以"荒谬速度"抓取SERP的服务，并使用"服务器集群"来规避Google的反自动化访问措施。此外，还 allegedly 提供用户"减少被阻止机会"的技巧，如发送"假用户代理字符串"、切换IP地址和使用代理使流量看起来像普通用户流量。
AWMProxy：被描述为"前俄罗斯僵尸网络"，Ars Technica未能立即联系到该公司置评。

行业反应与法律立场

被指控的公司对Reddit的诉讼表示惊讶，并誓言捍卫其商业模式。

SerpApi的发言人表示，Reddit在提起诉讼前未通知该公司，并强调："我们强烈不同意Reddit的指控，并打算在法庭上坚决捍卫自己。在我们八年的业务中，SerpApi一直合法经营。正如我们网站上所述，'公共数据的抓取和解析受美国宪法第一修正案保护。我们非常重视言论自由。'"

Oxylabs的首席治理战略官Denas Grybauskas表示，Reddit的投诉令人费解，因为涉诉的其他公司"无关且无关联"。他补充道："我们对这一消息感到震惊和失望，因为Reddit没有尝试直接与我们沟通或表达任何潜在担忧。Oxylabs一直并将继续是公共数据收集的先驱和行业领导者，它不会犹豫捍卫自己对这些指控的立场。"

数据授权与商业模式冲突

Reddit声称，在向Perplexity发送停止抓取Reddit内容的 cease-and-desistent 信函后，Perplexity的引用反而增加了"四十倍"。Reddit推测，由于Perplexity是SerpApi网站列出的客户，两者可能合谋规避Google的反规避工具。

Reddit首席法律官Ben Lee表示，Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据，然后将其出售给渴望训练材料的客户的教科书式例子"。他指控Perplexity"选择购买被盗数据，而不是与Reddit本身签订合法协议"。

然而，Perplexity反驳了Reddit关于其忽视内容授权要求的说法。该公司表示："不真实。每当有人询问我们关于内容授权的问题时，我们解释说Perplexity作为应用层公司，不会在内容上训练AI模型。从来没有。因此，我们不可能签署此类许可证协议。"

深层次影响：AI训练数据的获取困境

此次争议揭示了AI行业面临的一个核心问题：如何合法获取训练数据。随着大型语言模型的发展，高质量文本数据的需求激增，而公开可获取的数据源日益减少。

Reddit的担忧不仅限于数据被不当使用，还包括其商业模式和声誉可能受到"数据挪用和技术控制措施规避"的损害。如果没有许可协议确保Perplexity等公司尊重Reddit的政策，Reddit就无法控制谁可以访问数据、如何使用数据以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外，Reddit还担心Perplexity的变通方法可能会被其他公司效仿，从而影响Reddit的其他授权协议。同时，Reddit不得不投入"大量资源"用于反抓取技术，最终遭受损失，包括"利润损失和商业机会、声誉损害和用户信任丧失"。

法律诉求与行业展望

Reddit希望法院能够颁布禁令，禁止公司从Google SERP抓取Reddit内容，并阻止公司销售Reddit数据以及"开发或分发用于未经授权规避技术控制措施和抓取Reddit数据的任何技术或产品"。如果Reddit胜诉，相关公司可能需要支付巨额赔偿或交出因销售Reddit内容而获得的利润。

此次争议反映了数字内容所有权、技术防护与AI发展之间的复杂关系。随着AI技术的不断进步，类似的法律纠纷可能会变得更加普遍。如何在保护内容创造者权益的同时，促进AI技术的创新与发展，将是行业和政策制定者需要共同面对的挑战。

在数据成为AI发展关键资源的今天，建立清晰、合理的数据获取和使用规则，对于维护健康的数字生态系统至关重要。此次Reddit与Perplexity的争议，或许正是这一过程中的一个重要转折点。