AI搜索引擎数据争夺战：Reddit起诉Perplexity窃取内容的法律博弈

在数字时代，数据已成为最具价值的资源之一。随着人工智能技术的迅猛发展，AI搜索引擎对高质量内容的需求急剧增长，这引发了关于数据获取方式与版权保护之间的一系列法律争议。近日，知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼，指控其通过Google搜索结果非法抓取Reddit内容，这一事件不仅揭示了数据抓取行业的灰色地带，更引发了关于数据所有权、技术保护措施和法律边界的重要思考。

Reddit的指控："银行劫匪"式的内容窃取

Reddit在2025年10月22日提起的诉讼中，将Perplexity及其合作伙伴比作"银行劫匪"，指控他们"当场被抓"（red-handed）窃取内容。Reddit声称，Perplexity的"答案引擎"实际上是通过大量抓取Google搜索结果来回答用户问题，而这些结果中包含了大量Reddit内容。

Reddit在诉讼中描述了一个精心设计的测试：他们发布了一些仅在Google搜索结果页面(SERP)中才能找到的内容，结果"在几小时内，对Perplexity'答案引擎'的查询就产生了该测试帖子的内容"。Reddit认为，这明确表明Perplexity正在通过抓取Google SERPs获取Reddit内容，并将其整合到自己的答案引擎中。

Reddit首席法务官Ben Lee在声明中表示："Oxylabs、AWMProxy和SerpApi是典型的抓取者，他们绕过技术保护措施窃取数据，然后将其出售给渴望训练材料的客户。无法直接抓取Reddit后，他们隐藏身份、位置，将网络爬虫伪装成普通用户，从Google搜索中窃取Reddit内容。Perplexity至少是其中一家抓取者的自愿客户，选择购买被盗数据而非与Reddit达成合法协议。"

Perplexity的辩护："开放互联网"的捍卫者

面对Reddit的指控，Perplexity在Reddit上发布声明否认任何不当行为。他们将自己的答案引擎描述为总结Reddit讨论并在答案中引用Reddit线程，类似于任何在Reddit上分享链接或帖子的人可能做的事情。

Perplexity声称，Reddit试图通过为Reddit内容勒索许可费来攻击开放互联网，尽管他们知道Perplexity并未训练基础模型。Perplexity推测，Reddit的最终目的是利用此次诉讼作为"在Reddit与Google和OpenAI的训练数据谈判中展示武力的一种手段"。

Perplexity在声明中强调："我们不会勒索，也不会帮助Reddit勒索Google，即使他们是我们的(巨大)竞争对手。Perplexity会公平竞争，但我们不会屈服。我们不会让更大的公司在我们身上玩花招。"

值得注意的是，Reddit在诉讼中引用了其当前的机器人排除协议文件(robots.txt)中的表述："Reddit相信开放互联网，但不滥用公共内容"，这似乎是对Perplexity"开放互联网"论调的直接回应。

Google的反爬系统：SearchGuard的技术壁垒

为了支持其指控，Reddit传唤了Google，以了解这家搜索巨头如何阻止AI爬虫访问SERP内容。Google确认，他们依赖一个名为"SearchGuard"的技术访问控制系统，旨在防止自动化系统获取大量搜索结果和索引数据，同时允许个人用户（即人类）访问Google的搜索结果，包括包含Reddit数据的结果。

Reddit在诉讼中解释道："SearchGuard通过设置一个挑战障碍来防止未经授权访问Google的搜索数据，这个障碍无法被普通自动化系统解决，除非它们采取积极行动规避SearchGuard系统。"

Reddit认为，绕过这些反抓取系统违反了《数字千年版权法》(DMCA)，以及反对不公平贸易和不正当获利的法律。值得注意的是，Google的SearchGuard目前似乎是最容易被所谓的合谋者绕过的系统，这些人在意识到无法直接在Reddit平台上获取内容后，转而掠夺Google SERPs。

数据抓取行业的灰色地带

Reddit在诉讼中指控三家公司与Perplexity合谋：一家名为Oxylabs UAB的立陶宛数据抓取公司、一个名为AWMProxy的前俄罗斯僵尸网络，以及一家销售搜索引擎抓取服务的德克萨斯公司SerpApi。

Reddit指出，Oxylabs"明确表示其抓取服务旨在规避Google的技术措施"，并指向其名为"如何抓取Google搜索结果"的网站。同样，SerpApi也推广相同的服务，包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器，SerpApi最快的选项使用"服务器集群来隐藏、避免或通过蛮力有效规避Google为阻止对搜索引擎结果的自动化访问而采取的措施"。

根据Reddit的说法，这三家公司通过"将网络爬虫伪装成普通人（除其他技术外）来规避或绕过旨在阻止他们的安全限制"。从Google获得的传票请求信息显示，在7月的两周内，他们抓取了近"三十亿"包含Reddit文本、URL、图像和视频的SERPs。

各方的反应与立场

面对Reddit的诉讼，这些公司的反应各不相同。SerpApi的发言人对Ars表示，Reddit在提起诉讼前没有通知该公司。

"我们强烈不同意Reddit的指控，并打算在法庭上积极为自己辩护，"SerpApi的发言人说。"在我们八年的业务中，SerpApi始终在法律的正确一侧运营。正如我们网站上所述，'公共数据的爬取和解析受美国宪法第一修正案保护。我们非常重视言论自由。'"

Oxylabs的首席治理战略官Denas Grybauskas告诉Ars，Reddit的投诉令人困惑，因为诉讼中涉及的其他公司是"无关且无关联的"。

"我们对这一消息感到震惊和失望，因为Reddit没有尝试直接与我们交谈或沟通任何潜在关切，"Grybauskas说。"Oxylabs一直并将继续成为公共数据收集的先驱和行业领导者，它不会犹豫对这些指控进行辩护。Oxylabs的立场是，没有公司应该声称不属于自己的公共数据所有权。这可能只是试图以虚高价格出售相同公共数据的一种尝试。"

Grybauskas为Oxylabs的业务辩护，称其为"数千企业和研究人员创造真实世界的价值，例如那些推动开源调查、打击虚假信息或环境监测的研究人员"。

诉讼背后的商业动机

Reddit声称，在向Perplexity发送停止抓取Reddit内容的警告信后，情况并未好转，反而Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户，Reddit推测这两家公司以及另外两家公司合谋规避Google的反规避工具。

Reddit担心，Perplexity的规避方法可能会被其他公司效仿，从而影响Reddit的其他许可协议。同时，Reddit指出，他们必须投入"大量资源"用于反抓取技术，最终遭受损失，包括"利润损失和商业机会、声誉损害和用户信任丧失"。

Reddit希望法院能发出禁令，禁止公司从Google SERPs抓取Reddit内容。他们还希望公司被禁止销售Reddit数据，以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。如果Reddit胜诉，这些公司可能需要支付巨额赔偿或交出销售Reddit内容所获得的利润。

数据抓取与版权保护的法律边界

这一案件引发了关于数据抓取与版权保护法律边界的重要讨论。一方面，支持者认为公共数据的爬取和解析受言论自由保护，为创新和研究提供了基础；另一方面，内容平台则投入大量资源保护其内容不被未经授权使用。

法律专家指出，这一案件的关键在于确定：当内容出现在Google搜索结果中时，原始内容平台是否仍对其拥有控制权；以及规避技术保护措施获取数据是否构成违法行为。

数据抓取技术的演进与挑战

随着互联网的发展，数据抓取技术也在不断演进。从简单的HTTP请求到复杂的分布式系统，现代抓取工具已经能够模拟人类行为、规避检测机制，甚至使用机器学习来识别和提取有价值的数据。

与此同时，反抓取技术也在不断发展。Google的SearchGuard等系统代表了内容平台保护其数据的努力，但这些措施往往需要大量投资，且容易被有决心的抓取者绕过。

对互联网生态的深远影响

Reddit与Perplexity之间的法律纠纷不仅仅是一场商业诉讼，它反映了互联网生态中更深层次的矛盾：数据开放与保护、创新与版权、公共利益与商业利益之间的平衡。

如果法院支持Reddit的立场，可能会为内容平台提供更强的法律保护，但也可能限制AI创新的发展；相反，如果支持Perplexity等公司的立场，可能会促进AI技术的进步，但可能削弱内容创作者的权益。

未来展望：寻找平衡点

随着AI技术的不断发展，数据抓取与版权保护的争议可能会更加频繁和复杂。未来，我们需要在法律、技术和商业模式上寻找新的平衡点，既保护内容创作者的权益，又促进创新和技术进步。

可能的解决方案包括：建立更明确的数据使用规范、开发更公平的数据获取机制、探索新的商业模式使内容创作者能够从其数据中获益，以及加强国际合作制定统一的数据保护标准。

结语：数据时代的法律与伦理思考

Reddit起诉Perplexity的案件是数据时代法律与伦理思考的一个缩影。在数据成为关键资源的今天，我们需要重新审视数据所有权、使用边界和保护措施，确保在促进创新的同时，尊重和保护内容创作者的权益。

这一案件的结果将对互联网生态产生深远影响，可能为未来类似争议提供重要的先例。无论最终判决如何，它都将促使我们思考如何在数字时代平衡开放、创新与保护之间的关系，构建一个更加健康、可持续的互联网生态系统。