Reddit起诉Perplexity：AI搜索引擎如何从Google结果中窃取数据

在数字内容生态系统中，一场关于数据所有权和使用边界的法律纠纷正在上演。2025年10月，知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起了诉讼，指控他们通过非法手段从Google搜索结果中窃取Reddit内容。这一事件不仅揭示了AI训练数据获取的灰色地带，也引发了关于互联网开放性与内容保护之间平衡的深刻思考。

诉讼背景："银行抢劫者"的指控

Reddit在10月22日提交的诉讼中，将Perplexity及其合作伙伴描述为"银行抢劫者"，声称他们"被当场抓住"正在窃取数据。诉讼指出，Perplexity将自己定位为"世界上第一个答案引擎"，但实际上"并没有做任何突破性的事情"。

根据Reddit的指控，Perplexity的答案引擎本质上是通过解析大量Google搜索结果来回答用户问题，而这些搜索结果中包含了Reddit的内容。Reddit声称，Perplexity只能通过错误地访问和抓取Google搜索结果中出现的Reddit内容来运行其"答案引擎"。

为了证明这一指控，Reddit采取了一种巧妙的测试方法：他们发布了一些只能在Google搜索引擎结果页面(SERP)中找到的内容，并在"几小时内"，对Perplexity"答案引擎"的查询就产生了该测试帖子的内容。

"Perplexity获取该Reddit内容并将其用于'答案引擎'的唯一途径是，它和/或其共同被告抓取了Google SERP中的该Reddit内容，然后迅速将这些数据整合到其答案引擎中，"Reddit的诉讼文件中写道。

Perplexity的辩护：开放互联网的捍卫者

面对Reddit的指控，Perplexity在Reddit上发布声明否认任何不当行为，描述其答案引擎只是总结Reddit讨论并在答案中引用Reddit线程，就像任何在Reddit上分享链接或发布内容的人可能做的那样。

Perplexity暗示Reddit试图为Reddit内容勒索许可费，是在攻击开放互联网，尽管他们知道Perplexity不会训练基础模型。Perplexity声称，Reddit的最终目的是利用Perplexity诉讼作为"在Reddit与Google和OpenAI的训练数据谈判中展示力量的一种手段"。

"我们不会被勒索，我们也不会帮助Reddit勒索Google，即使他们是我们的(巨大)竞争对手，"Perplexity写道。"Perplexity会公平竞争，但我们不会屈服。我们也不会让更大的公司在我们身上玩鬼把戏。"

Reddit似乎预料到了Perplexity对"开放互联网"的辩护，在其投诉中指出："Reddit当前的Robots Exclusion Protocol文件('robots.txt')说，'Reddit相信开放的互联网，但不滥用公共内容。'"

Google的反抓取技术：SearchGuard系统

为了支持其指控，Reddit传唤了Google，以了解更多关于这家搜索巨头如何阻止AI抓取工具访问SERP内容的方法。Google确认，它依赖于一种名为"SearchGuard"的技术访问控制系统，该系统旨在防止自动化系统访问和获取大量搜索结果和索引数据，同时允许个体用户——即人类——访问Google的搜索结果，包括包含Reddit数据的结果。

"SearchGuard通过设置一个自动化系统在普通过程中无法解决的障碍挑战来防止未经授权访问Google的搜索数据，除非它们采取积极行动来规避SearchGuard系统，"Reddit的投诉解释道。

Reddit声称，绕过这些反抓取系统违反了《数字千年版权法》，以及反对不公平贸易和不正当获利的法律。似乎，Google的SearchGuard目前可能是被指控的合谋者最容易绕过的系统，这些人据说在意识到无法直接在Reddit平台上访问内容后，转而掠夺Google SERP。

抓取公司的商业模式：震惊与辩护

Reddit指控三家公司与Perplexity合谋——一家名为Oxylabs UAB的"立陶宛数据抓取公司"、一个被称为AWMProxy的"前俄罗斯僵尸网络"，以及SerpApi，一家销售搜索引擎抓取服务的德克萨斯公司。

Reddit声称，Oxylabs明确表示其抓取服务旨在规避Google的技术措施，并指向Oxylabs的一个名为"如何抓取Google搜索结果"的网站。SerpApi也推广相同的服务，包括一些以"荒谬速度"抓取SERP的选项。

根据Reddit的说法，这三家公司通过各种手段将"他们的网络抓取工具伪装成普通人"，以规避或绕过旨在阻止他们的安全限制。从Google获取信息的传票显示，在7月的两周内，他们抓取了"近三十亿"包含Reddit文本、URL、图像和视频的SERP。

面对Reddit的诉讼，这些公司表示震惊，同时誓言捍卫他们的商业模式。

SerpApi的发言人告诉Ars，Reddit在提起诉讼前没有通知该公司。

"我们强烈不同意Reddit的指控，并打算在法庭上积极为自己辩护，"SerpApi的发言人说。"在我们经营的八年里，SerpApi一直合法经营。正如我们网站上所说，'公共数据的抓取和解析受美国宪法第一修正案保护。我们非常重视言论自由。'"

Oxylabs的首席治理战略官Denas Grybauskas告诉Ars，Reddit的投诉似乎令人困惑，因为诉讼中涉及的其他公司"无关且无关联"。

"我们对这个消息感到震惊和失望，因为Reddit没有尝试直接与我们交谈或传达任何潜在关切，"Grybauskas说。"Oxylabs一直并将继续是公共数据收集的先驱和行业领导者，它不会犹豫对这些指控进行辩护。Oxylabs的立场是，没有公司应该声称不属于自己的公共数据的所有权。这可能只是试图以 inflated price 出售相同的公共数据。"

数据授权威胁与商业模式冲突

Reddit声称，在向Perplexity发送停止令，停止其答案引擎引用的Reddit内容抓取后，他们发现Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户，Reddit假设两者合谋规避Google的反规避工具，投诉中写道，以及其他公司。

Reddit首席法务官Ben Lee在提供给Ars的声明中表示，Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据，然后将其出售给渴望训练材料的客户"的抓取工具的"典型例子"。

"无法直接抓取Reddit，他们掩盖身份，隐藏位置，并将网络抓取工具伪装成从Google搜索窃取Reddit内容，"Lee说。"Perplexity是至少这些抓取工具之一的自愿客户，选择购买窃取的数据，而不是与Reddit本身签订合法协议。"

Perplexity反驳了Reddit关于他们忽视授权Reddit内容要求的说法。

"不真实。每当有人询问我们关于内容授权的事情时，我们解释说Perplexity作为应用层公司，不会在内容上训练AI模型，"Perplexity说。"从来没有过。因此，我们不可能签署授权协议来这样做。"

Perplexity声称Reddit"坚持要我们付款，尽管我们合法访问Reddit数据"，并称"屈服于强硬手段不是我们的行事方式"。

行业影响与未来展望

这场法律纠纷可能对整个AI和内容行业产生深远影响。Reddit声称，其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受损。如果没有授权协议确保Perplexity和其他人尊重Reddit的政策，Reddit就无法控制谁有权访问数据、他们如何使用数据，以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外，Reddit担心Perplexity的变通方法可能会流行开来，可能破坏Reddit的其他授权交易。与此同时，Reddit指出，它必须在反抓取技术上投入"大量资源"，Reddit最终遭受损失，包括"利润损失和商业机会、声誉损害和用户信任丧失"。

Reddit希望法院能发出禁令，禁止公司从Google SERP抓取Reddit内容。他们还希望阻止公司销售Reddit数据，以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。

如果Reddit胜诉，公司可能需要支付大量损害赔偿，或交出销售Reddit内容所获得的利润。

技术与法律的博弈：数字内容的新边界

这场纠纷反映了数字内容领域技术与法律之间持续的博弈。随着AI技术的发展，训练数据的获取变得越来越重要，但同时也引发了关于数据所有权、使用边界和伦理的复杂问题。

Reddit和Google投入巨资开发反抓取技术，如SearchGuard系统，表明内容平台正在积极保护其数据资产。然而，抓取公司也在不断开发新技术来规避这些保护措施，形成了一场永无止境的"猫鼠游戏"。

AI技术与数据安全

开放互联网与内容保护的平衡

这场纠纷的核心问题之一是如何平衡开放互联网的理念与内容保护的需求。Perplexity和其他公司主张公共数据的自由流动和访问，而Reddit则认为内容创造者有权控制其内容的使用方式。

Reddit在其robots.txt文件中表达了这种平衡："Reddit相信开放的互联网，但不滥用公共内容。"这一立场反映了互联网内容生态系统的复杂性，以及如何在促进创新的同时保护创作者权益的挑战。

AI训练数据的伦理考量

随着AI技术的快速发展，训练数据的获取和使用变得越来越重要。然而，这也引发了关于数据伦理的深刻问题。AI公司是否有权使用互联网上的所有内容进行训练，即使这些内容受版权保护或受使用条款限制？

Reddit的诉讼表明，内容平台正在寻求通过法律手段保护其数据资产，这可能促使AI行业更加重视数据获取的合法性和道德性。未来，我们可能会看到更多关于AI训练数据使用的法律框架和行业标准的出现。

商业模式的创新与冲突

这场纠纷也反映了不同商业模式之间的冲突。一方面，像Perplexity这样的AI搜索引擎依赖于大量数据来提供答案；另一方面，像Reddit这样的内容平台则通过其内容创造价值。

数据与商业

Reddit声称，像Oxylabs和SerpApi这样的公司通过销售抓取服务获利，而内容创造者却没有得到公平的补偿。这种商业模式冲突可能会促使行业重新思考如何在数据使用和价值创造之间建立更公平的关系。

法律与技术的未来发展趋势

Reddit对Perplexity的诉讼可能预示着法律与技术关系的新趋势。随着AI技术的发展，我们可能会看到更多关于数据所有权、使用边界和责任的法律法规出台。

同时，技术公司也在开发更复杂的反抓取和保护措施，如Google的SearchGuard系统。这种技术与法律之间的互动将继续塑造数字内容生态系统的未来。

结论：数字内容生态系统的重塑

Reddit对Perplexity的诉讼不仅仅是一个孤立的法律案例，它反映了数字内容生态系统正在经历的深刻变革。随着AI技术的发展，数据的价值和重要性不断增加，这促使各方重新思考内容所有权、使用边界和商业模式。

这场纠纷的结果可能会对整个行业产生深远影响，可能促使建立新的数据使用规范、法律框架和商业模式。在一个日益依赖AI技术的世界里，如何平衡开放互联网的理念与内容保护的需求，如何确保数据使用的合法性和道德性，这些问题的答案将塑造数字内容生态系统的未来。