Reddit起诉Perplexity:AI搜索如何重塑数据获取边界

2

在数字内容价值日益凸显的今天,一场关于数据获取合法性的法律战正在硅谷上演。2025年10月,内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼,指控其通过非法抓取谷歌搜索结果中的Reddit内容来训练其所谓的'答案引擎'。这一案件不仅揭示了AI训练数据获取的灰色地带,更引发了关于互联网公共数据使用权、数字内容版权以及技术伦理的深刻讨论。

案件核心:Reddit的指控与Perplexity的辩护

Reddit在诉讼中将Perplexity及其合作伙伴比作'银行劫匪',声称自己'当场抓获'了这些公司'窃取'内容的行为。Reddit指控Perplexity声称自己是'世界上第一个答案引擎',但实际上'并没有做任何突破性的事情'。

Reddit的诉讼文件指出:'它的答案引擎只是使用另一家公司的大型语言模型来解析大量谷歌搜索结果,看是否能根据这些结果回答用户的问题。但Perplexity只能通过错误地访问和抓取谷歌自身搜索引擎中谷歌搜索结果中出现的Reddit内容来运行其'答案引擎'。'

为了证明其指控,Reddit采取了一种巧妙的'诱捕'策略。Reddit发布了一些只能在谷歌搜索引擎结果页面(SERP)中找到的内容,'在几小时内,对Perplexity的'答案引擎'的查询就产生了该测试帖子的内容。'

Reddit在诉讼中表示:'Perplexity能够获取该Reddit内容并在其'答案引擎'中使用的唯一方式是,它和/或其共同被告从谷歌SERP中抓取了该Reddit内容,然后Perplexity迅速将这些数据整合到其答案引擎中。'

然而,Perplexity在Reddit上发布声明否认任何不当行为,将其答案引擎描述为总结Reddit讨论并在答案中引用Reddit线程,就像任何在Reddit上分享链接或发帖的人可能做的那样。

Perplexity暗示Reddit试图通过为Reddit内容索取许可费来攻击开放互联网,尽管知道Perplexity并没有训练基础模型。Perplexity指控Reddit的最终目的是利用Perplexity诉讼作为'在Reddit与谷歌和OpenAI的训练数据谈判中展示力量的手段。'

'我们不会被勒索,我们也不会帮助Reddit勒索谷歌,即使他们是我们的(巨大)竞争对手,'Perplexity写道。'Perplexity会公平竞争,但我们不会屈服。我们也不会让更大的公司在我们身上使用空城计。'

技术层面:如何绕过反抓取系统

Reddit在诉讼中披露,为了阻止抓取,它采取了多种措施,如'注册用户识别限制、IP速率限制、验证码机器人保护和异常检测工具'。

同样,谷歌依靠'反抓取系统和团队,专门防止未经授权访问其产品和服务',Reddit指出谷歌禁止对SERP进行'未经授权的自动访问'。

为了支持其主张,Reddit传唤谷歌以了解更多关于这家搜索巨头如何阻止AI抓取工具访问SERP上的内容。谷歌确认它依赖于'一种名为'SearchGuard'的技术访问控制系统,该系统旨在防止自动系统访问和获取批量搜索结果和索引数据,同时允许个人用户——即人类——访问谷歌的搜索结果,包括包含Reddit数据的结果。'

Reddit的诉讼解释道:'SearchGuard通过设置一个障碍挑战来防止未经授权访问谷歌的搜索数据,该挑战不能被自动系统在常规过程中解决,除非它们采取积极行动来规避SearchGuard系统。'

Reddit声称,绕过这些反抓取系统违反了《数字千年版权法》,以及反对不公平贸易和不正当获利的相关法律。似乎,谷歌的SearchGuard目前对于据称在意识到无法直接在平台上访问Reddit内容后转向掠夺谷歌SERP的所谓共谋者来说可能是最容易绕过的。

共谋者:三家被指控的公司

Reddit指控三家公司与Perplexity共谋——一家名为Oxylabs UAB的'立陶宛数据抓取公司',一个被称为AWMProxy的'前俄罗斯僵尸网络',以及SerpApi,一家德克萨斯州公司,销售抓取搜索引擎的服务。

Reddit声称Oxylabs'明确表示其抓取服务旨在规避谷歌的技术措施',并指向一个名为'如何抓取谷歌搜索结果'的Oxylabs网站。

SerpApi宣传同样的服务,包括一些以'荒谬速度'抓取SERP的选项。为了欺骗浏览器,SerpApi最快的选项使用'服务器集群来躲避、避免或通过蛮力有效措施谷歌已建立的措施,以阻止对搜索引擎结果的自动访问',Reddit指控道。SerpApi还 allegedly 向用户提供'减少被阻止机会的技巧,同时进行网络抓取,例如发送'假用户代理字符串',更改IP地址以避免来自同一地址的多个请求,并使用代理'使流量看起来像常规用户流量'并因此'模仿'用户流量。'

根据Reddit的说法,这三家公司'将他们的网络爬虫伪装成普通人(除其他技术外)以规避或绕过旨在阻止他们的安全限制。'从7月两周的时间跨度内,他们抓取了近'三十亿'包含Reddit文本、URL、图像和视频的SERP,一份要求谷歌提供信息的传票显示。

行业反应与法律争议

Ars Technica无法立即联系AWMProxy置评。然而,其他公司对Reddit的诉讼感到惊讶,同时誓言捍卫他们的商业模式。

SerpApi的发言人告诉Ars,Reddit在提起诉讼前没有通知该公司。

'我们强烈不同意Reddit的指控,并打算在法庭上积极为自己辩护,'SerpApi的发言人说。'在我们经营的八年里,SerpApi一直合法经营。正如我们网站上所述,'公共数据的抓取和解析受美国宪法第一修正案保护。我们非常重视言论自由。'

此外,SerpApi'与我们的律师密切合作,确保我们的服务遵守所有适用法律和公平使用原则。SerpApi坚定地支持其商业模式和行为,并将继续充分捍卫我们的权利,'发言人说。

Oxylabs的首席治理战略官Denas Grybauskas告诉Ars,Reddit的投诉似乎令人困惑,因为诉讼中涉及的其他公司'无关且没有关联。'

'我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们交谈或传达任何潜在关切,'Grybauskas说。'Oxylabs一直并将继续是公共数据收集的先锋和行业领导者,它不会犹豫对这些指控进行辩护。Oxylabs的立场是,没有公司应该声称不属于他们的公共数据所有权。这可能只是试图以 inflated 价格出售相同公共数据的尝试。'

Grybauskas捍卫Oxylabs的业务是为'数千企业和研究人员创造真实世界的价值,例如那些推动开源调查、打击虚假信息或环境监测的研究人员。'

'我们坚信我们的核心业务原则使互联网成为一个更好的地方并服务于公共利益,'Grybauskas说。'Oxylabs为合规访问公开可用的信息提供基础设施,我们要求每个客户合法使用我们的服务。'

商业影响与未来展望

Reddit声称,在向Perplexity发送停止信函,停止其答案引擎引用的Reddit内容抓取后,它发现了所谓的计划。Reddit声称,Perplexity的引用增加了'四十倍'。由于Perplexity是SerpApi网站上列出的客户,Reddit假设两者与谷歌的反规避工具合谋规避,诉讼中与其他公司一起。

在提供给Ars的声明中,Reddit首席法律官Ben Lee表示,Oxylabs、AWMProxy和SerpApi是'绕过技术保护措施窃取数据然后出售给渴望训练材料的客户的抓取工具的典型例子。'

'无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将网络爬虫伪装成从谷歌搜索窃取Reddit内容,'Lee说。'Perplexity至少是这些抓取工具的自愿客户,选择购买被盗数据,而不是与Reddit本身达成合法协议。'

Reddit在诉讼中表示,其业务和声誉因'Reddit数据的挪用和技术控制措施的规避'而受到'损害'。如果没有确保Perplexity等人尊重Reddit政策的许可协议,Reddit无法控制谁有权访问数据,他们如何使用数据,以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外,Reddit担心Perplexity的变通方法可能会流行开来,可能扰乱Reddit的其他许可交易。与此同时,Reddit指出,它必须投入'大量资源'用于反抓取技术,Reddit最终遭受损失,包括'利润损失和商业机会、声誉损害和用户信任丧失。'

Reddit希望法院能发出禁令,禁止公司从谷歌SERP抓取Reddit内容。它还希望阻止公司销售Reddit数据以及'开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品。'

如果Reddit获胜,公司可能需要支付巨额赔偿金或交出销售Reddit内容的利润。

深层思考:互联网公共数据的未来

这场诉讼引发了一个更深层次的问题:在AI时代,互联网上的公共数据应该如何被使用?Reddit和Perplexity的立场反映了两种不同的互联网哲学。

Reddit代表了内容创造者的立场,认为尽管数据是公开的,但其使用应该受到控制,特别是当用于商业目的时。Reddit投入了大量资源创建和维持社区,生成高质量内容,因此认为应该从这些数据的价值中获益。

另一方面,Perplexity及其合作伙伴代表了'开放互联网'的立场,认为公开可用的数据应该被自由使用,特别是用于创新和公共利益。他们辩称,他们的服务为企业和研究人员创造了价值,促进了信息获取和创新。

这两种立场之间的张力反映了数字时代的根本矛盾:一方面,互联网建立在开放和共享的原则上;另一方面,内容创造者和平台需要从其工作中获得经济回报。

AI快讯

技术与法律的平衡

Reddit的诉讼也突显了技术措施和法律保护之间的平衡问题。谷歌的SearchGuard等技术系统旨在保护其搜索结果免受自动抓取,但这些系统是否足够强大,是否能应对日益复杂的抓取技术?

同样,法律框架是否跟上技术发展的步伐?现有的版权法、反不正当竞争法等是否能有效应对AI训练数据获取的复杂性?

Reddit的诉讼试图通过法律手段填补这一空白,但法院的裁决将对此类案件产生深远影响,可能为未来类似纠纷设立先例。

对AI行业的影响

这场诉讼对AI行业有着重要影响。AI模型的训练需要大量数据,而许多最有价值的数据存在于像Reddit这样的平台上。如果法院支持Reddit的立场,AI公司可能需要重新考虑其数据获取策略,并可能需要与内容平台建立更正式的许可关系。

这可能增加AI开发的成本,但也可能创造新的商业模式,使内容创造者和平台能够从AI训练数据的价值中获益。

AI技术

结论:重新定义数字时代的所有权

Reddit对Perplexity的诉讼不仅仅是一个法律案件,它反映了数字时代重新定义所有权和使用权的需求。随着AI技术的快速发展,我们需要新的框架来平衡开放创新与知识产权保护。

无论法院如何裁决,这场诉讼都将推动关于数据获取、版权保护和AI伦理的重要对话。在技术不断进步的世界中,我们需要确保法律和道德框架能够跟上,保护各方利益,同时促进创新和进步。

最终,这场诉讼可能标志着互联网数据获取新时代的开始,一个更加注重透明度、同意和公平价值分配的时代。在这个时代,开放与保护不再是对立的选择,而是可以共存的原则,共同塑造一个更加公平和可持续的数字生态系统。