在人工智能技术迅猛发展的今天,数据成为驱动AI进步的核心燃料。然而,当数据获取与知识产权保护发生冲突时,法律边界变得模糊不清。2025年10月,Reddit对AI搜索引擎Perplexity提起诉讼,指控其通过Google搜索结果非法抓取Reddit内容,引发了科技界对数据使用权限与AI发展边界的广泛讨论。本文将全面剖析这一案件的技术细节、法律争议与行业影响。
案件背景:Reddit的指控
Reddit于2025年10月22日对Perplexity及其三家合作伙伴提起诉讼,指控这些公司合谋通过Google搜索结果非法抓取Reddit内容。Reddit在诉讼中声称,Perplexity的"答案引擎"本质上是一种"银行抢劫"行为,通过规避Google和Reddit的反爬虫技术,大规模获取未经授权的内容。
Reddit指出,Perplexity自称为"全球首个答案引擎",但实际上"并没有做任何突破性的事情"。诉讼文件中描述,Perplexity的答案引擎只是使用其他公司的大型语言模型解析大量Google搜索结果,以尝试根据这些结果回答用户问题。然而,Reddit强调,Perplexity的"答案引擎"只能通过错误地访问和抓取Google搜索结果中出现的Reddit内容才能运行。
证据与测试:"数字版标记钞票"
Reddit在诉讼中详细描述了其如何设计测试来证明Perplexity的侵权行为。Reddit发布了一些只能在Google搜索引擎结果页面(SERP)中找到的内容,并在"几小时内",针对Perplexity"答案引擎"的查询就产生了这些测试帖子的内容。
诉讼文件指出:"Perplexity能够获取那些Reddit内容并在其'答案引擎'中使用的唯一方式,是它和/或其共同被告从Google SERPs中抓取了这些Reddit内容,然后迅速将这些数据整合到其答案引擎中。"
Reddit将这种测试方法比作"数字版标记钞票",通过追踪这些"标记"内容如何出现在Perplexity的搜索结果中,证明了其抓取行为的存在。
技术层面:反爬虫系统与规避手段
Reddit在诉讼中详细介绍了其使用的反爬虫技术,包括"注册用户身份验证限制、IP速率限制、验证码机器人保护和异常检测工具"。同样,Google也依赖"反爬虫系统和专门团队来防止对其产品和服务的未经授权访问"。
Reddit通过传唤Google获取了更多关于这家搜索巨头如何阻止AI爬虫访问SERP内容的信息。Google确认,其依赖名为"SearchGuard"的技术访问控制系统,旨在防止自动化系统获取大量搜索结果和索引数据,同时允许个别用户(即人类)访问Google的搜索结果,包括包含Reddit数据的结果。
Reddit的诉讼解释道:"SearchGuard通过设置一个自动化系统在常规情况下无法解决的障碍挑战来防止未经授权访问Google的搜索数据,除非这些系统采取积极行动来规避SearchGuard系统。"
被告方:Perplexity及其合作伙伴
Reddit指控三家公司与Perplexity合谋:一家名为Oxylabs UAB的立陶宛数据抓取公司、一个被称为AWMProxy的前俄罗斯僵尸网络,以及一家销售搜索引擎抓取服务的德克萨斯公司SerpApi。
Reddit指控Oxylabs明确表示其抓取服务旨在规避Google的技术措施,并指向Oxylabs的一个名为"如何抓取Google搜索结果"的网站。同样,SerpApi也宣传类似服务,包括一些以"荒谬速度"抓取SERP的选项。
根据Reddit的说法,这三家公司通过"将网络爬虫伪装成普通人(除其他技术外)来规避或绕过旨在阻止他们的安全限制"。从Google获取信息的传票显示,在7月两周的时间内,他们抓取了包含Reddit文本、URL、图像和视频的近30亿个SERP。
被告方的回应
Perplexity的立场
在Reddit的一篇帖子中,Perplexity否认任何不当行为,将其答案引擎描述为总结Reddit讨论并在答案中引用Reddit线程,就像任何在Reddit上分享链接或发帖的人可能做的那样。
Perplexity暗示Reddit试图通过为Reddit内容索取许可费来攻击开放互联网,尽管知道Perplexity不会训练基础模型。Perplexity指控Reddit的最终目的是利用Perplexity诉讼作为"Reddit在与Google和OpenAI的训练数据谈判中展示力量的手段"。
Perplexity写道:"我们不会被敲诈,我们也不会帮助Reddit敲诈Google,即使他们是我们的(巨大)竞争对手。Perplexity会公平竞争,但我们不会屈服。我们也不会让更大的公司在我们身上玩花招。"
其他被告的回应
SerpApi的发言人告诉Ars,Reddit在提起诉讼前没有通知该公司。
"我们强烈不同意Reddit的指控,并打算在法庭上积极为自己辩护,"SerpApi的发言人说。"在我们经营的八年里,SerpApi一直合法经营。正如我们网站上所述,'公共数据的爬取和解析受到美国宪法第一修正案的保护。我们非常重视言论自由。"
Oxylabs的首席治理战略官Denas Grybauskas告诉Ars,Reddit的投诉令人费解,因为诉讼中涉及的其他公司"无关且无关联"。
"我们对这个消息感到震惊和失望,因为Reddit没有尝试直接与我们交谈或沟通任何潜在担忧,"Grybauskas说。"Oxylabs一直并将继续是公共数据收集的先驱和行业领导者,它不会犹豫对这些指控进行辩护。Oxylabs的立场是,没有公司应该声称不属于他们的公共数据所有权。这可能只是试图以虚高价格出售相同公共数据的尝试。"
法律争议:数据所有权与使用边界
Reddit的法律依据
Reddit在诉讼中声称,绕过这些反爬虫系统违反了《数字千年版权法》,以及反对不公平贸易和不正当获利的规定。Reddit指出,其当前的机器人排除协议文件("robots.txt")表示:"Reddit相信开放互联网,但不滥用公共内容。"
Reddit的首席法律官Ben Lee在提供给Ars的声明中表示,Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施来窃取数据,然后将其出售给渴望训练材料的客户的典型例子"。
"无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将网络爬虫伪装成从Google搜索窃取Reddit内容,"Lee说。"Perplexity至少是这些爬虫之一的自愿客户,选择购买窃取的数据,而不是与Reddit本身达成合法协议。"
Perplexity的反驳
在Reddit上,Perplexity反驳了Reddit关于其忽视许可Reddit内容要求的说法。
"不真实。每当有人询问我们关于内容许可的问题时,我们解释说Perplexity作为应用层公司,不会在内容上训练AI模型,"Perplexity说。"从来没有。因此,我们不可能为此签署许可协议。"
Perplexity声称Reddit"坚持让我们支付费用,尽管我们合法访问Reddit数据",并指出"屈服于强硬手段不是我们的行事方式"。
行业影响:AI训练数据的未来
Reddit的担忧不仅限于其自身数据被未经授权使用。诉讼文件指出,Reddit担心Perplexity的变通方法可能会流行起来,可能会干扰Reddit的其他许可协议。与此同时,Reddit指出,它必须投入"大量资源"用于反抓取技术,最终导致Reddit遭受损失,包括"利润损失和商业机会、声誉损害和用户信任丧失"。
Reddit希望法院能发出禁令,禁止公司从Google SERP抓取Reddit内容。它还希望阻止公司销售Reddit数据,以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。
如果Reddit胜诉,公司可能需要支付大量损害赔偿或交出销售Reddit内容所得的利润。
数据生态的重新定义
这一案件反映了AI时代数据生态面临的根本性挑战。一方面,AI系统需要大量数据来训练和改进;另一方面,内容创造者希望保护其知识产权并控制其数据的使用方式。
Reddit与Perplexity的纠纷只是这一更大趋势的一个例子。随着AI技术的普及,我们可能会看到更多类似的诉讼和争议,直到法律框架和技术解决方案能够更好地平衡创新与保护的需求。
技术与法律的博弈
案件还揭示了技术保护措施与规避技术之间持续的"猫鼠游戏"。Google的SearchGuard代表了防止自动化访问的先进技术,但正如Reddit的诉讼所示,总有方法可以绕过这些保护措施。
法律系统需要不断适应技术发展,确保既能保护创新者的权利,又能允许负责任的数据使用和AI进步。这一案件可能会为未来的法律先例设定重要标准。
开放互联网的未来
案件中的一个核心争议是"开放互联网"的定义。Perplexity和其他被告辩称,他们只是在访问和使用公共数据,这是开放互联网的本质。而Reddit则认为,开放互联网不应包括滥用公共内容或规避技术保护措施的行为。
这一争议反映了互联网治理中更广泛的辩论:如何在保护内容创造者权利的同时,维持开放和可访问的互联网环境。
结论:AI时代的法律挑战
Reddit对Perplexity的诉讼代表了AI时代面临的一个关键法律挑战:如何在促进技术创新与保护知识产权之间取得平衡。随着AI系统越来越深入地融入我们的日常生活,解决这些问题将变得愈发重要。
无论法院最终如何裁决,这一案件已经引发了关于数据所有权、使用权限和AI伦理的重要讨论。这些讨论将塑造我们未来与AI系统互动的方式,以及互联网数据生态的演变方向。
随着技术的发展,法律框架也需要不断适应,以确保在保护创新者权利的同时,不会阻碍有价值的AI研究和应用。这一案件可能只是未来更多类似纠纷的开始,反映了我们正在经历的数字转型中的根本性张力。









