在数字时代,数据已成为最具价值的资源之一。随着人工智能技术的迅猛发展,AI搜索引擎对高质量内容的需求急剧增长,这引发了关于数据获取方式与版权保护之间的一系列法律争议。近日,知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼,指控其通过Google搜索结果非法抓取Reddit内容,这一事件不仅揭示了数据抓取行业的灰色地带,更引发了关于数据所有权、技术保护措施和法律边界的重要思考。
Reddit的指控:"银行劫匪"式的内容窃取
Reddit在2025年10月22日提起的诉讼中,将Perplexity及其合作伙伴比作"银行劫匪",指控他们"当场被抓"(red-handed)窃取内容。Reddit声称,Perplexity的"答案引擎"实际上是通过大量抓取Google搜索结果来回答用户问题,而这些结果中包含了大量Reddit内容。
Reddit在诉讼中描述了一个精心设计的测试:他们发布了一些仅在Google搜索结果页面(SERP)中才能找到的内容,结果"在几小时内,对Perplexity'答案引擎'的查询就产生了该测试帖子的内容"。Reddit认为,这明确表明Perplexity正在通过抓取Google SERPs获取Reddit内容,并将其整合到自己的答案引擎中。
Reddit首席法务官Ben Lee在声明中表示:"Oxylabs、AWMProxy和SerpApi是典型的抓取者,他们绕过技术保护措施窃取数据,然后将其出售给渴望训练材料的客户。无法直接抓取Reddit后,他们隐藏身份、位置,将网络爬虫伪装成普通用户,从Google搜索中窃取Reddit内容。Perplexity至少是其中一家抓取者的自愿客户,选择购买被盗数据而非与Reddit达成合法协议。"
Perplexity的辩护:"开放互联网"的捍卫者
面对Reddit的指控,Perplexity在Reddit上发布声明否认任何不当行为。他们将自己的答案引擎描述为总结Reddit讨论并在答案中引用Reddit线程,类似于任何在Reddit上分享链接或帖子的人可能做的事情。
Perplexity声称,Reddit试图通过为Reddit内容勒索许可费来攻击开放互联网,尽管他们知道Perplexity并未训练基础模型。Perplexity推测,Reddit的最终目的是利用此次诉讼作为"在Reddit与Google和OpenAI的训练数据谈判中展示武力的一种手段"。
Perplexity在声明中强调:"我们不会勒索,也不会帮助Reddit勒索Google,即使他们是我们的(巨大)竞争对手。Perplexity会公平竞争,但我们不会屈服。我们不会让更大的公司在我们身上玩花招。"
值得注意的是,Reddit在诉讼中引用了其当前的机器人排除协议文件(robots.txt)中的表述:"Reddit相信开放互联网,但不滥用公共内容",这似乎是对Perplexity"开放互联网"论调的直接回应。
Google的反爬系统:SearchGuard的技术壁垒
为了支持其指控,Reddit传唤了Google,以了解这家搜索巨头如何阻止AI爬虫访问SERP内容。Google确认,他们依赖一个名为"SearchGuard"的技术访问控制系统,旨在防止自动化系统获取大量搜索结果和索引数据,同时允许个人用户(即人类)访问Google的搜索结果,包括包含Reddit数据的结果。
Reddit在诉讼中解释道:"SearchGuard通过设置一个挑战障碍来防止未经授权访问Google的搜索数据,这个障碍无法被普通自动化系统解决,除非它们采取积极行动规避SearchGuard系统。"
Reddit认为,绕过这些反抓取系统违反了《数字千年版权法》(DMCA),以及反对不公平贸易和不正当获利的法律。值得注意的是,Google的SearchGuard目前似乎是最容易被所谓的合谋者绕过的系统,这些人在意识到无法直接在Reddit平台上获取内容后,转而掠夺Google SERPs。
数据抓取行业的灰色地带
Reddit在诉讼中指控三家公司与Perplexity合谋:一家名为Oxylabs UAB的立陶宛数据抓取公司、一个名为AWMProxy的前俄罗斯僵尸网络,以及一家销售搜索引擎抓取服务的德克萨斯公司SerpApi。
Reddit指出,Oxylabs"明确表示其抓取服务旨在规避Google的技术措施",并指向其名为"如何抓取Google搜索结果"的网站。同样,SerpApi也推广相同的服务,包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器,SerpApi最快的选项使用"服务器集群来隐藏、避免或通过蛮力有效规避Google为阻止对搜索引擎结果的自动化访问而采取的措施"。
根据Reddit的说法,这三家公司通过"将网络爬虫伪装成普通人(除其他技术外)来规避或绕过旨在阻止他们的安全限制"。从Google获得的传票请求信息显示,在7月的两周内,他们抓取了近"三十亿"包含Reddit文本、URL、图像和视频的SERPs。
各方的反应与立场
面对Reddit的诉讼,这些公司的反应各不相同。SerpApi的发言人对Ars表示,Reddit在提起诉讼前没有通知该公司。
"我们强烈不同意Reddit的指控,并打算在法庭上积极为自己辩护,"SerpApi的发言人说。"在我们八年的业务中,SerpApi始终在法律的正确一侧运营。正如我们网站上所述,'公共数据的爬取和解析受美国宪法第一修正案保护。我们非常重视言论自由。'"
Oxylabs的首席治理战略官Denas Grybauskas告诉Ars,Reddit的投诉令人困惑,因为诉讼中涉及的其他公司是"无关且无关联的"。
"我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们交谈或沟通任何潜在关切,"Grybauskas说。"Oxylabs一直并将继续成为公共数据收集的先驱和行业领导者,它不会犹豫对这些指控进行辩护。Oxylabs的立场是,没有公司应该声称不属于自己的公共数据所有权。这可能只是试图以虚高价格出售相同公共数据的一种尝试。"
Grybauskas为Oxylabs的业务辩护,称其为"数千企业和研究人员创造真实世界的价值,例如那些推动开源调查、打击虚假信息或环境监测的研究人员"。
诉讼背后的商业动机
Reddit声称,在向Perplexity发送停止抓取Reddit内容的警告信后,情况并未好转,反而Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户,Reddit推测这两家公司以及另外两家公司合谋规避Google的反规避工具。
Reddit担心,Perplexity的规避方法可能会被其他公司效仿,从而影响Reddit的其他许可协议。同时,Reddit指出,他们必须投入"大量资源"用于反抓取技术,最终遭受损失,包括"利润损失和商业机会、声誉损害和用户信任丧失"。
Reddit希望法院能发出禁令,禁止公司从Google SERPs抓取Reddit内容。他们还希望公司被禁止销售Reddit数据,以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。如果Reddit胜诉,这些公司可能需要支付巨额赔偿或交出销售Reddit内容所获得的利润。
数据抓取与版权保护的法律边界
这一案件引发了关于数据抓取与版权保护法律边界的重要讨论。一方面,支持者认为公共数据的爬取和解析受言论自由保护,为创新和研究提供了基础;另一方面,内容平台则投入大量资源保护其内容不被未经授权使用。
法律专家指出,这一案件的关键在于确定:当内容出现在Google搜索结果中时,原始内容平台是否仍对其拥有控制权;以及规避技术保护措施获取数据是否构成违法行为。
数据抓取技术的演进与挑战
随着互联网的发展,数据抓取技术也在不断演进。从简单的HTTP请求到复杂的分布式系统,现代抓取工具已经能够模拟人类行为、规避检测机制,甚至使用机器学习来识别和提取有价值的数据。
与此同时,反抓取技术也在不断发展。Google的SearchGuard等系统代表了内容平台保护其数据的努力,但这些措施往往需要大量投资,且容易被有决心的抓取者绕过。
对互联网生态的深远影响
Reddit与Perplexity之间的法律纠纷不仅仅是一场商业诉讼,它反映了互联网生态中更深层次的矛盾:数据开放与保护、创新与版权、公共利益与商业利益之间的平衡。
如果法院支持Reddit的立场,可能会为内容平台提供更强的法律保护,但也可能限制AI创新的发展;相反,如果支持Perplexity等公司的立场,可能会促进AI技术的进步,但可能削弱内容创作者的权益。
未来展望:寻找平衡点
随着AI技术的不断发展,数据抓取与版权保护的争议可能会更加频繁和复杂。未来,我们需要在法律、技术和商业模式上寻找新的平衡点,既保护内容创作者的权益,又促进创新和技术进步。
可能的解决方案包括:建立更明确的数据使用规范、开发更公平的数据获取机制、探索新的商业模式使内容创作者能够从其数据中获益,以及加强国际合作制定统一的数据保护标准。
结语:数据时代的法律与伦理思考
Reddit起诉Perplexity的案件是数据时代法律与伦理思考的一个缩影。在数据成为关键资源的今天,我们需要重新审视数据所有权、使用边界和保护措施,确保在促进创新的同时,尊重和保护内容创作者的权益。
这一案件的结果将对互联网生态产生深远影响,可能为未来类似争议提供重要的先例。无论最终判决如何,它都将促使我们思考如何在数字时代平衡开放、创新与保护之间的关系,构建一个更加健康、可持续的互联网生态系统。






