AI搜索引擎与内容平台的法律博弈:Reddit诉Perplexity数据窃取案深度解析

2

在人工智能技术迅猛发展的今天,内容获取与使用的边界问题日益凸显。2025年10月,知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼,指控其通过非法手段获取Reddit内容,引发了业界对数据获取合法性、知识产权保护以及AI发展伦理的广泛讨论。本文将深入剖析这一案件,探讨其背后的技术手段、法律争议以及对未来互联网生态的潜在影响。

案件背景:Reddit与Perplexity的冲突

Reddit在2025年10月22日提起的诉讼中,指控AI搜索引擎Perplexity与多家公司合谋,通过非法抓取Google搜索结果中的Reddit内容来运营其所谓的"答案引擎"。Reddit声称,Perplexity表面上宣称自己是"世界上第一个答案引擎",但实际上"并没有做任何突破性的事情"。

Reddit在诉讼中指出:"它的答案引擎只是使用另一家公司的大型语言模型来解析大量Google搜索结果,看是否能根据这些结果回答用户的问题。但Perplexity只能通过错误地访问和抓取Google自己搜索引擎中Google搜索结果中出现的Reddit内容来运行它的'答案引擎'。"

这一指控的核心在于,Reddit认为Perplexity绕过了其反抓取措施,而这些措施需要Google和Reddit双方投入大量资源开发和维护。Reddit将涉嫌参与这一阴谋的公司比作"银行抢劫犯",声称自己当场抓获了Perplexity"正在偷取其'答案引擎'本不应访问的内容"。

证据分析:Reddit如何"设局"取证

Reddit在诉讼中详细描述了其取证过程,采用了类似执法部门"设局"抓捕的策略。Reddit通过在Google搜索引擎结果页面(SERP)上发布只能在这些结果中找到的内容,然后"在几小时内,对Perplexity的'答案引擎'的查询产生了该测试帖子的内容"。

Reddit的诉讼文件指出:"Perplexity能够获得该Reddit内容并在其'答案引擎'中使用的唯一方式是,它和/或其共同被告抓取Google SERP以获取该Reddit内容,然后Perplexity迅速将这些数据整合到其答案引擎中。"

这一取证方法有效地证明了Perplexity确实通过抓取Google搜索结果中的Reddit内容来获取数据,而非直接访问Reddit平台。这一证据对于Reddit的指控至关重要,因为它揭示了数据获取的间接路径,而这种路径正是当前反抓取技术面临的新挑战。

技术手段:Google SearchGuard与反抓取技术

为了支持其指控,Reddit向Google发出传票,以了解更多关于这家搜索巨头如何阻止AI抓取工具访问SERP内容的信息。Google确认,它依赖一种名为"SearchGuard"的技术访问控制系统,旨在防止自动化系统获取大量搜索结果和索引数据,同时允许单个用户(即人类)访问Google的搜索结果,包括包含Reddit数据的结果。

Reddit的投诉解释道:"SearchGuard通过设置一个自动化系统在普通情况下无法解决的障碍挑战来防止未经授权访问Google的搜索数据,除非这些系统采取积极行动规避SearchGuard系统。"

Reddit本身也采用多种措施来阻止抓取,包括"注册用户识别限制、IP速率限制、验证码机器人保护和异常检测工具"。类似地,Google也依赖"反抓取系统和专门团队来防止对其产品和服务的未经授权访问",并禁止"对SERP的未经授权的自动化访问"。

这些技术措施代表了内容平台和搜索引擎在保护其数据方面所做的努力,同时也揭示了数据抓取与反抓取之间持续的技术军备竞赛。

被告方回应:惊讶与否认

Reddit在诉讼中指控三家公司与Perplexity合谋——一家名为Oxylabs UAB的立陶宛数据抓取公司、一个名为AWMProxy的前俄罗斯僵尸网络,以及一家销售搜索引擎抓取服务的德克萨斯公司SerpApi。

令人意外的是,这些被告公司对Reddit的诉讼表示震惊,同时誓言捍卫自己的商业模式。

SerpApi的发言人告诉Ars,Reddit在提起诉讼前没有通知该公司。"我们强烈不同意Reddit的指控,并打算在法庭上积极为自己辩护,"SerpApi的发言人说。"在我们八年的业务中,SerpApi一直合法运营。正如我们网站上所述,'公共数据的爬取和解析受美国宪法第一修正案保护。我们非常重视言论自由。"

Oxylabs的首席治理战略总监Denas Grybauskas告诉Ars,Reddit的投诉似乎令人困惑,因为诉讼中涉及的其他公司是"无关且无关联的"。

"我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们交谈或沟通任何潜在问题,"Grybauskas说。"Oxylabs一直并将继续是公共数据收集的先驱和行业领导者,它不会犹豫对这些指控进行辩护。Oxylabs的立场是,没有公司应该声称不属于自己的公共数据的所有权。这可能只是试图以虚高价格出售相同公共数据的尝试。"

立场对比:开放互联网与数据所有权

在Reddit上,Perplexity否认了任何不当行为,将其答案引擎描述为总结Reddit讨论并在答案中引用Reddit线程,就像任何在Reddit上分享链接或发帖的人可能做的那样。Perplexity暗示,Reddit试图为Reddit内容索取许可费,是在攻击开放互联网,尽管它知道Perplexity并不训练基础模型。

Perplexity声称,Reddit的最终目的是利用Perplexity诉讼作为"Reddit与Google和OpenAI进行训练数据谈判中的武力展示"。

"我们不会被敲诈,我们也不会帮助Reddit敲诈Google,即使他们是我们的(巨大)竞争对手,"Perplexity写道。"Perplexity会公平竞争,但我们不会屈服。我们也不会让更大的公司利用我们玩壳游戏。"

Reddit似乎预料到了Perplexity对"开放互联网"的辩护,在其投诉中指出:"Reddit当前的Robots排除协议文件('robots.txt')说,'Reddit相信开放互联网,但不滥用公共内容。'"

这一立场对比反映了数字时代一个核心争议:公共数据在互联网上发布后,其所有权和使用权的边界在哪里?开放互联网的理念与内容创作者和平台对其数据的控制权之间如何平衡?

商业模式冲突:许可费与数据获取

Reddit声称,在向Perplexity发送停止抓取其答案引擎引用的Reddit内容的停止侵权信后,Reddit发现Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户,Reddit推测这两家公司以及另外几家公司合谋规避Google的反规避工具。

在提供给Ars的声明中,Reddit首席法务官Ben Lee表示,Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据然后将其出售给渴望训练材料的客户的抓取者的教科书示例"。

"无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将网络抓取工具伪装成普通用户,从Google搜索中窃取Reddit内容,"Lee说。"Perplexity至少是这些抓取者之一的自愿客户,选择购买被盗数据,而不是与Reddit本身达成合法协议。"

然而,Perplexity反驳了Reddit关于其忽视Reddit内容许可要求的说法。

"不真实。每当有人询问我们关于内容许可的问题时,我们解释说,Perplexity作为应用层公司,不会在内容上训练AI模型,"Perplexity说。"从来没有。因此,我们不可能为此签署许可协议。"

Perplexity声称,Reddit"坚持要我们付费,尽管我们合法访问Reddit数据","屈服于强硬手段不是我们的做生意方式"。

法律依据:版权与不正当竞争

Reddit在诉讼中声称,绕过这些反抓取系统违反了《数字千年版权法》,以及反对不公平贸易和不正当获利的法律。Reddit声称,其商业和声誉因"Reddit数据的挪用和技术控制措施的规避"而受到"损害"。

没有确保Perplexity等公司尊重Reddit政策的许可协议,Reddit无法控制谁可以访问数据、他们如何使用数据,以及数据使用是否与Reddit的隐私政策和用户协议冲突,投诉中说道。

此外,Reddit担心Perplexity的变通方法可能会被广泛采用,可能会破坏Reddit的其他许可协议。与此同时,Reddit指出,它必须在反抓取技术上投入"大量资源",最终导致Reddit遭受损失,包括"利润和商业机会损失、声誉损害和用户信任丧失"。

Reddit希望法院能发出禁令,禁止公司从Google SERP抓取Reddit内容。它还希望禁止公司销售Reddit数据以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。

如果Reddit胜诉,这些公司可能需要支付大量损害赔偿,或交出出售Reddit内容所获得的利润。

行业影响:AI内容获取模式的转折点

这一案件可能对AI行业的内容获取模式产生深远影响。目前,许多AI公司和搜索引擎依赖从互联网上抓取的大量数据进行训练和提供服务。随着内容平台越来越积极地保护其数据,AI公司可能需要重新考虑其数据获取策略。

一方面,这一案件可能导致更严格的数据获取法规和实践,迫使AI公司寻求更合法的数据获取途径,如与内容平台达成许可协议。另一方面,这也可能促使开发更先进的抓取技术,进一步加剧数据抓取与反抓取之间的技术军备竞赛。

对于Reddit而言,这一诉讼不仅关乎其自身数据的保护,也可能影响其与其他科技巨头的谈判,包括Google和OpenAI。Reddit暗示,Perplexity诉讼可能是其在与这些公司的训练数据谈判中"展示武力"的一种方式。

未来展望:互联网内容生态的重塑

Reddit诉Perplexity案件反映了数字时代一个根本性挑战:如何在保护内容创作者和平台权益的同时,保持互联网的开放性和创新性。这一案件的结果可能会为未来互联网内容生态设定重要先例。

随着AI技术的不断发展,内容获取与使用的边界问题将变得更加复杂。内容平台可能需要开发更有效的保护措施,而AI公司则需要更清晰地界定其数据使用的合法性。同时,监管机构可能需要制定更明确的法规,以平衡各方利益。

最终,这一案件可能促使整个行业重新思考互联网内容的所有权和使用权问题,推动建立更加公平和可持续的内容生态系统。在这个生态系统中,内容创作者得到合理补偿,AI创新能够继续发展,而用户则能够继续从开放互联网中获益。

结论:技术、法律与商业的交汇点

Reddit诉Perplexity案件不仅仅是一个简单的法律纠纷,而是技术发展、法律框架和商业模式交汇点的体现。它揭示了在AI时代,数据作为关键资源的价值,以及各方对数据控制权的争夺。

这一案件的结果将对互联网内容生态产生深远影响,可能重塑AI公司获取数据的方式,改变内容平台保护其数据的策略,并影响相关法规的发展。无论最终结果如何,这一案件都标志着互联网内容进入了一个新的发展阶段,在这个阶段中,数据获取的合法性、知识产权的保护以及AI发展的伦理将成为持续讨论和辩论的核心话题。