AI搜索引擎数据争夺战：Reddit起诉Perplexity窃取内容背后的法律博弈

在数字化内容价值日益凸显的今天，一场关于数据获取与内容所有权的法律战正在上演。2025年10月，知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起了诉讼，指控他们通过非法手段抓取Reddit在Google搜索结果中的内容。这一事件不仅揭示了AI行业获取训练数据的灰色地带，更引发了关于互联网内容所有权、数据隐私和技术伦理的广泛讨论。

诉讼核心：Reddit的指控与证据

Reddit在提交的诉状中，将Perplexity及其合作伙伴描述为"银行劫匪"，声称他们通过精心策划的阴谋，非法获取了本应受保护的内容。Reddit指出，Perplexity声称自己是"世界上第一个答案引擎"，但实际上只是利用其他公司的大型语言模型来解析大量Google搜索结果，试图根据这些结果回答用户问题。

Reddit在诉状中强调："它的答案引擎只是简单地使用另一家公司的大型语言模型来解析大量Google搜索结果，看是否能基于这些结果回答用户的问题。但Perplexity只有通过错误地访问和抓取Google自身搜索引擎中出现的Reddit内容，才能运行它的'答案引擎'。"

为了证明其指控，Reddit采取了一种巧妙的测试方法，他们发布了一些只能在Google搜索引擎结果页面(SERP)中找到的内容，并在"几小时内"，对Perplexity"答案引擎"的查询就产生了该测试帖子的内容。

Reddit在诉状中表示："Perplexity能够获得该Reddit内容并随后在其'答案引擎'中使用的唯一方式是，它和/或其共同被告从Google SERP中抓取了该Reddit内容，然后Perplexity迅速将这些数据整合到其答案引擎中。"

技术规避：如何绕过Google的SearchGuard系统

Reddit在诉讼中揭示了Google如何保护其搜索结果免受自动化访问。Google确认其依赖名为"SearchGuard"的技术访问控制系统，该系统旨在防止自动化系统获取大量搜索结果和索引数据，同时允许单个用户（即人类）访问Google的搜索结果，包括包含Reddit数据的结果。

Reddit的诉状解释道："SearchGuard通过设置无法由自动化系统在常规过程中解决的障碍挑战来防止对Google搜索数据的未授权访问，除非这些系统采取积极行动来规避SearchGuard系统。"

Reddit指出，绕过这些反抓取系统违反了《数字千年版权法》，以及反对不公平贸易和不正当获利的相关法律。值得注意的是，Google的SearchGuard系统似乎是目前被 alleged 共谋者最容易绕过的系统，这些人在意识到无法直接在Reddit平台上获取内容后，转而掠夺Google SERP。

合谋者网络：三家被指控的公司

Reddit指控三家与Perplexity合谋的公司：一家名为Oxylabs UAB的立陶宛数据抓取公司、一个名为AWMProxy的前俄罗斯僵尸网络网络，以及一家销售搜索引擎抓取服务的德克萨斯州公司SerpApi。

Reddit声称Oxylabs"明确表示其抓取服务旨在规避Google的技术措施"，并指向Oxylabs的一个名为"如何抓取Google搜索结果"的网站。SerpApi推广相同的服务，包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器，SerpApi最快的选项使用"服务器群来躲避、避免或通过蛮力有效措施Google已建立的防止对搜索引擎结果进行自动化访问的措施"。

根据Reddit的说法，这三家公司"将他们的网络爬虫伪装成普通人（除其他技术外），以规避或绕过旨在阻止他们的安全限制"。从Google获得传票信息显示，在7月的两周内，他们抓取了近"三十亿"包含Reddit文本、URL、图片和视频的SERP。

各方反应：震惊与否认

被指控的公司对Reddit的诉讼表示震惊，同时誓言捍卫自己的商业模式。

SerpApi的发言人对Ars表示，Reddit在提起诉讼前没有通知该公司。

"我们强烈不同意Reddit的指控，并打算在法庭上坚决为自己辩护，"SerpApi的发言人说。"在我们经营的八年里，SerpApi一直合法经营。正如我们网站上所说，'公共数据的抓取和解析受到美国宪法第一修正案的保护。我们非常重视言论自由。"

Oxylabs的首席治理战略总监Denas Grybauskas告诉Ars，Reddit的诉状似乎令人困惑，因为诉讼中涉及的其他公司是"无关且无关联的"。

"我们对这一消息感到震惊和失望，因为Reddit没有尝试直接与我们交谈或传达任何潜在关切，"Grybauskas说。"Oxylabs一直并将继续是公共数据收集的先驱和行业领导者，它不会犹豫对这些指控进行辩护。Oxylabs的立场是，没有公司应该声称不属于他们的公共数据所有权。这可能只是试图以虚高价格出售相同公共数据的尝试。"

商业动机：许可交易威胁

Reddit声称，在向Perplexity发送停止抓取其答案引擎引用的Reddit内容的停止侵权信后，他们发现Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户之一，Reddit推测这两家公司可能与Google的反规避工具合谋规避。

Reddit首席法律官Ben Lee在提供给Ars的声明中表示，Oxylabs、AWMProxy和SerpApi是"爬虫的典型例子"，它们"绕过技术保护措施来窃取数据，然后将其出售给渴望训练材料的客户"。

"无法直接抓取Reddit，他们隐藏身份、隐藏位置，并将网络爬虫伪装起来，从Google搜索中窃取Reddit内容，"Lee说。"Perplexity至少是这些爬虫之一的自愿客户，选择购买窃取的数据，而不是与Reddit本身签订合法协议。"

Perplexity的辩护：开放互联网与合理使用

在Reddit上，Perplexity反驳了Reddit关于他们忽视许可Reddit内容要求的说法。

"不真实。每当有人询问我们关于内容许可的问题时，我们解释说，Perplexity作为应用层公司，不在内容上训练AI模型，"Perplexity说。"从来没有过。因此，我们不可能签署许可协议来这样做。"

Perplexity声称Reddit"坚持要我们付款，尽管我们合法访问Reddit数据"，并表示"屈服于强硬手段不是我们的行事方式"。

Perplexity的发言人Jesse Dwyer告诉Ars，该公司选择在Reddit上发布其声明，"是为了说明一个简单的观点"。

"这是一个任何人都可以访问的公共Reddit链接，但根据Reddit诉讼的逻辑，如果你以任何方式提及或引用它（这是作为记者的工作），他们可能会起诉你，"Dwyer说。

深远影响：互联网生态系统的重新定义

这场纠纷远不止是两家公司之间的法律争端，它反映了互联网内容价值、数据所有权和技术伦理等更广泛的问题。

Reddit声称，其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受到"损害"。如果没有确保Perplexity和其他人尊重Reddit政策的许可协议，Reddit无法控制谁可以访问数据、他们如何使用数据，以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外，Reddit担心Perplexity的变通方法可能会流行起来，可能破坏Reddit的其他许可交易。与此同时，Reddit指出，它必须在反抓取技术上投入"大量资源"，最终导致Reddit遭受损失，包括"利润损失和商业机会、声誉损害和用户信任丧失"。

Reddit希望法院能发出禁令，禁止公司从Google SERP抓取Reddit内容。它还希望阻止公司销售Reddit数据，以及"开发或分发任何用于未授权规避技术控制措施和抓取Reddit数据的技术或产品"。

如果Reddit胜诉，公司可能需要支付巨额损害赔偿，或交出销售Reddit内容的利润。

未来展望：AI训练数据的获取困境

这场纠纷凸显了AI行业面临的一个核心困境：如何合法获取高质量的训练数据。随着AI模型变得越来越复杂，它们需要更多的数据来提高性能，但这些数据的获取往往涉及复杂的法律和伦理问题。

一方面，像Reddit这样的平台投入了大量资源创建和维护内容，他们认为应该从中获得经济回报。另一方面，像Perplexity这样的AI公司则主张，他们只是在合理使用公开可用的信息，就像任何互联网用户一样。

这场法律战的结果可能会为整个行业设定先例，影响未来AI公司如何获取训练数据，以及内容平台如何保护其内容。无论结果如何，这场纠纷都标志着互联网内容生态系统的一个重要转折点，它将重塑我们对数据所有权、隐私和技术伦理的理解。

在数字化内容价值日益增长的今天，这场关于数据获取与内容所有权的法律战，或许只是未来更多类似纠纷的开始。随着AI技术的不断发展和普及，我们需要建立更清晰、更公平的规则，平衡创新与保护，确保互联网生态系统的健康可持续发展。