在当今数字化时代,数据已成为互联网企业的核心资产。2025年10月,知名内容平台Reddit对AI搜索引擎Perplexity提起诉讼,指控其通过绕道Google搜索结果的方式非法抓取Reddit内容。这一案件不仅揭示了AI公司与内容平台之间日益紧张的关系,也引发了关于数据获取边界、技术伦理和数字版权的广泛讨论。
案件背景:从直接抓取到间接绕道
Reddit在10月22日提交的诉讼文件中指控,Perplexity与多家公司合谋,通过Google搜索结果非法抓取Reddit内容。这一指控标志着数据抓取策略的转变——当直接抓取受到阻碍时,部分公司开始寻找间接途径获取有价值的内容。
Reddit在诉讼中特别指出,Perplexity号称自己是"世界上第一个答案引擎",但实际上只是利用其他公司的大型语言模型解析Google搜索结果,试图基于这些结果回答用户问题。然而,Perplexity的"答案引擎"只能通过非法访问和抓取出现在Google搜索结果中的Reddit内容才能运行。
Reddit将涉嫌合谋的公司比作"银行劫匪",声称自己当场抓获了Perplexity"正在盗窃"其"答案引擎"本不应获取的内容。为了证明这一指控,Reddit进行了一项测试:发布仅在Google搜索引擎结果页面(SERP)中才能找到的内容,结果"在几小时内,对Perplexity'答案引擎'的查询就产生了该测试帖子的内容"。
技术手段:如何绕过反抓取系统
为了理解这一指控的技术层面,我们需要了解Reddit和Google各自采用的防抓取措施。
Reddit在诉讼中提到,平台采用多种措施防止内容被非法抓取,包括"注册用户身份识别限制、IP速率限制、验证码机器人保护和异常检测工具"。同样,Google也依赖"防抓取系统和专门团队,防止对其产品和服务的未经授权访问",并禁止对SERP进行"未经授权的自动化访问"。
Reddit向Google发出传票,以了解这家搜索巨头如何阻止AI爬虫访问SERP内容。Google确认其依赖名为"SearchGuard"的技术访问控制系统,旨在防止自动化系统获取大量搜索结果和索引数据,同时允许个人用户(即人类)访问Google的搜索结果,包括包含Reddit数据的结果。
Reddit的诉讼解释道:"SearchGuard通过设置挑战性障碍来防止未经授权访问Google的搜索数据,这种障碍无法被自动化系统在常规情况下解决,除非它们采取积极行动规避SearchGuard系统。"
涉案公司:从数据采集到商业服务
Reddit指控三家公司与Perplexity合谋:一家名为Oxylabs UAB的立陶宛数据抓取公司、一个被称为"前俄罗斯僵尸网络"的AWMProxy,以及销售搜索引擎抓取服务的德克萨斯州公司SerpApi。
Reddit指控Oxylabs明确表示其抓取服务旨在规避Google的技术措施,并指出其网站"如何抓取Google搜索结果"。
SerpApi也推广相同的服务,包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器,SerpApi最快的选项使用"服务器集群来隐藏、规避或通过蛮力有效措施Google为阻止对搜索引擎结果的自动化访问而采取的措施"。Reddit还指控SerpApi为用户提供"减少网络抓取时被阻止机会的技巧,如发送'虚假用户代理字符串'、更改IP地址以避免来自同一地址的多次请求,以及使用代理'使流量看起来像常规用户流量'并因此'冒充'用户流量"。
根据Reddit的说法,这三家公司"将他们的网络爬虫伪装成普通人(除其他技术外)以规避或绕过旨在阻止他们的安全限制"。从Google获得的传票信息显示,在7月两周的时间内,他们抓取了近30亿个包含Reddit文本、URL、图像和视频的SERP。
各方回应:从震惊到坚决否认
当Reddit提起诉讼时,相关公司纷纷表示震惊。
SerpApi的发言人对Ars表示,Reddit在提起诉讼前没有通知该公司。
"我们强烈不同意Reddit的指控,并打算在法庭上积极为自己辩护,"SerpApi的发言人说。"在我们八年来的业务中,SerpApi一直合法经营。正如我们网站上所述,'公共数据的爬取和解析受美国宪法第一修正案保护。我们极其重视言论自由。"
此外,SerpApi表示"我们与律师密切合作,确保我们的服务遵守所有适用的法律和公平使用原则。SerpApi坚定地支持其商业模式和行为,并将继续最大限度地维护我们的权利。"
Oxylabs的首席治理战略官Denas Grybauskas告诉Ars,Reddit的投诉令人困惑,因为诉讼中涉及的其他公司是"无关且无关联的"。
"我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们交谈或沟通任何潜在担忧,"Grybauskas说。"Oxylabs一直并将继续是公共数据采集的先驱和行业领导者,它不会犹豫对这些指控进行辩护。Oxylabs的立场是,没有公司应该声称不属于他们的公共数据所有权。这可能只是试图以 inflated 价格出售相同公共数据的尝试。"
Grybauskas为Oxylabs的业务辩护,称其为"数千企业和研究人员创造真实世界的价值,例如推动开源调查、打击虚假信息或环境监测的那些人"。
"我们坚信,我们的核心业务原则使互联网成为一个更好的地方,并为公众利益服务,"Grybauskas说。"Oxylabs为合规访问公开信息提供基础设施,我们要求每个客户合法使用我们的服务。"
商业动机:从内容许可到商业模式保护
Reddit在诉讼中提到,在向Perplexity发送停止抓取其"答案引擎"所引用Reddit内容的律师函后,情况并未改善,反而Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户,Reddit推测两者合谋规避Google的反规避工具,以及其他公司。
Reddit首席法律官Ben Lee在提供给Ars的声明中表示,Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据,然后将其出售给渴望训练材料的客户的教科书式例子"。
"无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将网络爬虫伪装成普通用户,从Google搜索窃取Reddit内容,"Lee说。"Perplexity至少是这些爬虫之一的自愿客户,选择购买窃取的数据,而不是与Reddit本身签订合法协议。"
然而,Perplexity在Reddit上反驳了Reddit关于其忽视Reddit内容许可要求的说法。
"不真实。每当有人询问我们关于内容许可的问题时,我们解释说,Perplexity作为应用层公司,不在内容上训练AI模型,"Perplexity说。"从来没有。因此,我们不可能签署此类许可协议。"
Perplexity表示,Reddit"坚持要我们付费,尽管我们合法访问Reddit数据",并称"屈服于强硬手段不是我们的行事方式"。
Perplexity的发言人Jesse Dwyer告诉Ars,该公司选择在Reddit上发布声明,"是为了说明一个简单的观点"。
"这是一个公开的Reddit链接,任何人都可以访问,但根据Reddit诉讼的逻辑,如果你以任何方式提及或引用它(这是你作为记者的工作),他们可能会起诉你,"Dwyer说。
法律依据:从版权法到不公平贸易
Reddit在诉讼中指控,规避这些防抓取系统违反了《数字千年版权法》,以及反对不公平贸易和不正当获利的相关法律。
Reddit声称,其业务和声誉因"数据的挪用和技术控制措施的规避"而受损。如果没有许可协议确保Perplexity和其他人尊重Reddit政策,Reddit无法控制谁有权访问数据、他们如何使用数据,以及数据使用是否与Reddit的隐私政策和用户协议冲突。
此外,Reddit担心Perplexity的变通方法可能会被效仿,从而可能破坏Reddit的其他许可协议。与此同时,Reddit指出,它必须投入"大量资源"用于防抓取技术,最终导致Reddit遭受损失,包括"利润和商业机会损失、声誉损害和用户信任丧失"。
行业影响:从技术边界到商业模式创新
这一案件对AI行业和内容平台生态系统产生了深远影响。
首先,它引发了关于AI训练数据获取边界的讨论。随着AI技术的快速发展,高质量训练数据的获取变得越来越重要,但同时也带来了法律和伦理问题。Perplexity与Reddit的纠纷表明,AI公司需要更加谨慎地考虑其数据来源的合法性。
其次,这一案件可能推动防抓取技术的发展。Reddit和Google已经在投入大量资源开发防抓取技术,如Google的SearchGuard。未来,我们可能会看到更多创新的技术解决方案,以保护内容免受未经授权的抓取。
第三,这一案件可能影响AI公司与内容平台之间的商业关系。目前,许多AI公司通过抓取公开内容来训练其模型,但这一案件表明,内容平台可能会寻求更严格的许可协议和补偿机制。
未来展望:从法律诉讼到行业规范
Reddit希望法院能够发出禁令,禁止公司从Google SERP抓取Reddit内容。它还希望公司被禁止销售Reddit数据以及"开发或分发用于未经授权规避技术控制措施和抓取Reddit数据的任何技术或产品"。
如果Reddit胜诉,相关公司可能需要支付巨额赔偿金或交出销售Reddit内容所获得的利润。
这一案件的结果可能会对整个AI行业产生深远影响。它可能会确立新的法律先例,规范AI训练数据的获取方式,并推动内容平台与AI公司之间建立更健康的商业关系。

技术伦理:在创新与保护之间寻找平衡
Reddit与Perplexity的纠纷也引发了关于技术伦理的讨论。一方面,技术创新需要自由获取信息和数据的权利;另一方面,内容创造者和平台需要保护其投资和知识产权。
在数字时代,我们需要在促进创新和保护知识产权之间找到平衡点。这可能需要制定新的法律法规,建立更明确的数据使用规范,以及开发既能保护内容又能促进创新的技术解决方案。
商业模式的演变:从免费到价值交换
这一案件也反映了互联网商业模式的演变。过去,许多公司依靠免费获取公开内容来构建其业务。然而,随着内容价值的提升和知识产权意识的增强,这种模式正面临挑战。
未来,我们可能会看到更多基于价值交换的商业模式,即AI公司通过支付许可费用或其他形式的价值交换来获取内容,而不是简单地抓取公开数据。这种转变可能会推动整个行业向更可持续的方向发展。

结论:数据时代的法律与商业新格局
Reddit起诉Perplexity的案件不仅仅是一个法律纠纷,它反映了数字时代数据获取与保护的新格局。随着AI技术的快速发展,这一案件可能会成为确立数据使用边界的重要先例。
无论案件结果如何,它都提醒我们,在数字时代,数据已成为核心资产,而数据的获取、使用和保护需要建立在明确的法律框架和商业伦理之上。未来,AI公司与内容平台之间的关系可能会更加复杂,但也可能催生更健康、更可持续的商业模式。
这一案件也为我们提供了一个机会,重新思考如何在促进技术创新的同时保护知识产权,如何在开放互联网与内容保护之间找到平衡点。只有通过多方对话和合作,我们才能构建一个既鼓励创新又尊重创作者权益的数字生态系统。








