Reddit起诉Perplexity：AI搜索引擎如何窃取搜索结果数据的法律战

在2025年10月23日提交的一份诉讼中，Reddit指控一家名为Perplexity的AI搜索引擎与多家公司合谋，非法抓取Google搜索结果中的Reddit内容， allegedly规避了需要Google和Reddit大量投资的反抓取措施。这起案件不仅涉及两家科技巨头之间的数据争夺，更引发了关于互联网内容所有权、AI训练数据来源以及开放互联网边界的深刻讨论。

案件背景：Reddit的指控

Reddit在其诉讼中声称，Perplexity依赖于Reddit和Google的资源，自称是"世界上第一个答案引擎"，但实际上"并没有做任何突破性的事情"。

诉讼书指出："它的答案引擎只是使用另一家公司的大型语言模型来解析大量Google搜索结果，以查看是否可以根据这些结果回答用户的问题。但Perplexity只有通过错误地访问和抓取Google自身搜索引擎中Google搜索结果中出现的Reddit内容，才能运行其'答案引擎'。"

Reddit将涉嫌合谋的公司比作"银行抢劫犯"，声称它当场抓获了Perplexity"正在窃取"其答案引擎本不应拥有的内容。

证据收集："数字版标记钞票"测试

为了证明其指控，Reddit进行了一项精心设计的测试，类似于警方使用"标记钞票"来追踪银行抢劫犯。

Reddit在Google搜索引擎结果页面(SERP)上发布了一些只能在这些结果中找到的内容，并在"几小时内"，对Perplexity的"答案引擎"的查询就产生了该测试帖子的内容。

诉讼书解释道："Perplexity能够获取该Reddit内容然后在其'答案引擎'中使用的唯一方式是，它和/或其共同被告从Google SERP抓取该Reddit内容，然后Perplexity迅速将这些数据整合到其答案引擎中。"

Perplexity的辩护：开放互联网的捍卫者

在Reddit上的一篇帖子中，Perplexity否认了任何不当行为，将其答案引擎描述为总结Reddit讨论并在答案中引用Reddit线程，就像任何在Reddit上分享链接或发帖的人可能做的那样。

Perplexity暗示Reddit试图为Reddit内容勒索许可费，是在攻击开放互联网，尽管知道Perplexity不训练基础模型。Perplexity指控Reddit的最终目的是利用Perplexity诉讼作为"Reddit与Google和OpenAI进行训练数据谈判中的武力展示"。

Perplexity写道："我们不会被勒索，我们也不会帮助Reddit勒索Google，即使他们是我们的(巨大)竞争对手。Perplexity会公平竞争，但我们不会屈服。我们也不会让更大的公司在壳牌游戏中利用我们。"

反抓取技术：Google的SearchGuard系统

为了支持其主张，Reddit传唤Google以了解更多关于这家搜索巨头如何阻止AI抓取工具访问SERP上的内容。Google确认其依赖一种名为"SearchGuard"的技术访问控制系统，旨在防止自动系统获取大规模搜索结果和索引数据，同时允许个人用户——即人类——访问Google的搜索结果，包括包含Reddit数据的结果。

Reddit的诉讼解释道："SearchGuard通过设置一个障碍挑战来防止未经授权访问Google的搜索数据，这个挑战不能由自动系统在常规过程中解决，除非它们采取积极行动来规避SearchGuard系统。"

Reddit声称，绕过这些反抓取系统违反了《数字千年版权法》，以及反对不公平贸易和不正当获利的法律。似乎，对于那些据称在意识到无法直接在Reddit平台上访问内容后转向掠夺Google SERP的涉嫌合谋者来说，Google的SearchGuard目前可能是最容易绕过的。

涉案公司：三家被指控的合作伙伴

Reddit指控三家公司与Perplexity合谋——一家名为Oxylabs UAB的"立陶宛数据抓取公司"，一个被称为AWMProxy的"前俄罗斯僵尸网络"，以及SerpApi，一家德克萨斯州销售搜索引擎抓取服务的公司。

Reddit声称Oxylabs"明确表示其抓取服务旨在规避Google的技术措施"，并指向Oxylabs的一个名为"如何抓取Google搜索结果"的网站。

SerpApi也吹捧同样的服务，包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器，SerpApi最快的选项使用"服务器群集来躲避、避免或通过蛮力有效措施Google已建立的防止自动访问搜索引擎结果的措施"。Reddit还指控SerpApi向用户提供"减少网络抓取被阻止几率的技巧，如发送'假用户代理字符串'，更改IP地址以避免来自同一地址的多个请求，并使用代理'使流量看起来像常规用户流量'，从而'冒充'用户流量"。

根据Reddit的说法，这三家公司"将他们的网络抓取工具伪装成普通人(除其他技术外)以规避或绕过旨在阻止他们的安全限制"。从Google获取信息的传票显示，在7月的两周内，他们抓取了"近三十亿"包含Reddit文本、URL、图像和视频的SERP。

公司回应：震惊与辩护

Ars Technology无法立即联系AWMProxy置评。然而，其他公司对Reddit的诉讼感到惊讶，同时誓言捍卫其商业模式。

SerpApi的发言人告诉Ars，Reddit在提起诉讼前没有通知该公司。

发言人表示："我们强烈不同意Reddit的指控，并打算在法庭上积极为自己辩护。在我们八年的业务中，SerpApi一直合法经营。正如我们网站上所述，'公共数据的爬取和解析受到美国宪法第一修正案的保护。我们非常重视言论自由。'"

此外，SerpApi"与我们的律师密切合作，确保我们的服务遵守所有适用的法律和公平使用原则。SerpApi坚定地支持其商业模式和行为，并将继续全力捍卫我们的权利。"

Oxylabs的首席治理战略官Denas Grybauskas告诉Ars，Reddit的投诉似乎令人困惑，因为诉讼中涉及的其他公司"无关且无关联"。

Grybauskas说："我们对这个消息感到震惊和失望，因为Reddit没有尝试直接与我们交谈或沟通任何潜在的关注点。Oxylabs一直并将继续是公共数据收集的先驱和行业领导者，它不会犹豫对这些指控进行自我辩护。Oxylabs的立场是，没有公司应该声称不属于自己的公共数据所有权。这可能只是试图以 inflated price 出售相同的公共数据。"

Grybauskas捍卫Oxylabs的业务是"为数千企业和研究人员创造真实价值，例如那些推动开源调查、打击虚假信息或环境监测的人"。

他说："我们坚信我们的核心业务原则使互联网变得更美好并为公众利益服务。Oxylabs为合规访问公开可用的信息提供基础设施，我们要求每个客户合法使用我们的服务。"

Reddit的担忧：许可协议的威胁

显然，Reddit在向Perplexity发送停止令，停止抓取其答案引擎引用的Reddit内容后，发现了涉嫌的方案。Reddit声称，Perplexity的引用增加了"四十倍"，而不是结束抓取。由于Perplexity是SerpApi网站上列出的客户，Reddit假设两者与其他公司合谋规避Google的反规避工具。

在提供给Ars的声明中，Reddit首席法律官Ben Lee表示，Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据然后出售给渴望训练材料的客户的典型抓取工具"。

Lee说："无法直接抓取Reddit，他们掩盖身份，隐藏位置，并将网络抓取工具伪装成从Google搜索窃取Reddit内容。Perplexity至少是这些抓取工具的自愿客户，选择购买窃取的数据，而不是与Reddit本身签订合法协议。"

核心争议：内容所有权vs开放互联网

这场法律战的核心争议在于内容所有权与开放互联网理念之间的冲突。

Reddit辩称，其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受到"损害"。没有确保Perplexity等人尊重Reddit政策的许可协议，Reddit无法控制谁有权访问数据，他们如何使用数据，以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外，Reddit担心Perplexity的变通方法可能会流行起来，可能会破坏Reddit的其他许可协议。与此同时，Reddit指出，它必须在反抓取技术上投入"大量资源"，Reddit最终遭受损失，包括"利润损失和商业机会、声誉损害和用户信任丧失"。

法律后果与行业影响

Reddit希望法院能发出禁令，禁止公司从Google SERP抓取Reddit内容。它还希望公司被阻止销售Reddit数据以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。

如果Reddit胜诉，公司可能需要支付大量赔偿金或交出销售Reddit内容的利润。

这起案件对AI行业有着深远影响。随着越来越多的AI公司依赖于网络内容进行训练和提供答案，关于数据抓取的法律界限变得越来越重要。法院的裁决可能会为AI公司如何合法获取训练数据设定先例，也可能改变科技公司之间的数据共享和许可协议。

技术与法律的博弈

Reddit与Perplexity之间的纠纷反映了技术进步与法律框架之间的持续博弈。随着AI技术的发展，抓取工具变得越来越复杂，能够绕过传统的反抓取措施。同时，法律体系正在努力跟上这些变化，试图保护内容创作者的权利，同时确保互联网的开放性和可访问性。

Google的SearchGuard系统代表了科技公司为保护其内容所做的努力，但正如Reddit的诉讼所示，这些系统并非不可攻破。这引发了一个问题：技术保护措施是否足够，还是需要更严格的法律保护来确保内容所有者的权利？

开放互联网的未来

Perplexity声称它是在捍卫"开放互联网"的理念，这一理念一直是互联网发展的核心原则。然而，随着越来越多的内容被创造和货币化，关于什么是"公共"数据以及如何使用这些数据的定义变得越来越复杂。

Reddit的诉讼提出了一个关键问题：开放互联网是否意味着任何人都可以不受限制地使用任何内容，还是内容创作者应该对其创作拥有某种控制权？这个问题没有简单的答案，但随着AI技术的发展，它变得越来越重要。

数据伦理与责任

这场法律战也引发了关于数据伦理的讨论。AI公司应该对其使用的数据来源负责吗？他们应该确保他们有使用这些数据的合法权利吗？随着AI系统变得越来越强大，这些问题变得越来越重要。

Reddit的诉讼可以被视为对数据伦理的一次检验，它质疑AI公司是否应该能够在没有适当许可的情况下使用他人的内容。这可能促使整个行业更加关注数据使用的道德方面，并可能导致新的实践和标准的发展。

结论：互联网内容生态的重新平衡

Reddit与Perplexity之间的法律纠纷代表了互联网内容生态系统中正在发生的权力转移。随着AI公司变得越来越强大，传统的内容平台如Reddit发现自己处于一个弱势地位，努力保护其内容免受未经授权的使用。

这场案件的裁决可能会对互联网的未来产生深远影响，塑造内容所有权、数据使用和开放互联网理念之间的关系。无论结果如何，它都突显了随着技术发展，法律和伦理框架需要不断调整以适应新的现实。

最终，这起案件提醒我们，互联网是一个复杂的生态系统，需要平衡创新、开放和权利保护。随着AI技术的发展，找到这种平衡将变得越来越重要，以确保互联网继续作为创新和交流的平台蓬勃发展。