在数字内容日益成为核心资源的今天,一场围绕数据获取与使用的法律战争正在上演。2025年10月,知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼,指控其通过绕过谷歌搜索结果的方式非法抓取Reddit内容。这一案件不仅关乎两家公司的商业利益,更触及了数字时代内容所有权、数据访问边界以及AI技术伦理等深层次问题。
Reddit的指控:"银行抢劫者"式的数据窃取
Reddit在提交的诉讼文件中,将涉嫌合谋的几家公司比作"银行抢劫者",声称他们抓住了Perplexity"现行作案"的证据。Reddit指控Perplexity与其合作伙伴——立陶宛数据抓取公司Oxylabs UAB、前俄罗斯僵尸网络AWMProxy以及德克萨斯州的SerpApi——合谋,通过绕过谷歌和Reddit的反抓取措施,非法获取Reddit内容。
"它的答案引擎只是使用另一家公司的大型语言模型来解析大量谷歌搜索结果,看是否能基于这些结果回答用户的问题,"Reddit在诉讼中描述道。"但Perplexity只能通过错误访问和抓取谷歌自己搜索引擎中出现的Reddit内容来运行它的'答案引擎'。"
为了证明这一指控,Reddit采取了一种巧妙的测试方法:发布只能在谷歌搜索结果页面(SERP)中找到的内容,并在"几小时内",对Perplexity的"答案引擎"的查询就产生了该测试帖子的内容。
"Perplexity唯一能够获取该Reddit内容并在其'答案引擎'中使用的方式是,它和/或其共同被告抓取了谷歌SERP中的该Reddit内容,然后迅速将这些数据整合到其答案引擎中,"Reddit的诉讼文件解释道。
Perplexity的回应:"开放互联网"的捍卫者
面对Reddit的指控,Perplexity在Reddit上发布声明否认任何不当行为,将其答案引擎描述为对Reddit讨论的总结和在答案中引用Reddit线程,类似于任何在Reddit上分享链接或发布内容的人可能做的事情。
Perplexity暗示Reddit试图通过为Reddit内容索取许可费来攻击"开放互联网",尽管知道Perplexity不会训练基础模型。Perplexity指控Reddit的最终目的是利用Perplexity诉讼作为"Reddit与谷歌和OpenAI就训练数据进行谈判的武力展示"。
"我们不会被勒索,也不会帮助Reddit勒索谷歌,即使他们是我们的(巨大)竞争对手,"Perplexity写道。"Perplexity会公平竞争,但我们不会屈服。我们也不会让更大的公司用我们玩壳牌游戏。"
Reddit似乎预料到了Perplexity对"开放互联网"的辩护,在其投诉中指出,"Reddit当前的机器人排除协议文件('robots.txt')说,'Reddit相信开放互联网,但不滥用公共内容。'"
谷歌的反抓取技术:SearchGuard系统
为了支持其指控,Reddit向谷歌发出传票,以了解这家搜索巨头如何阻止AI抓取工具访问SERP上的内容。谷歌确认它依赖名为"SearchGuard"的技术访问控制系统,该系统旨在防止自动化系统访问和获取大量搜索结果和索引数据,同时允许个人用户——即人类——访问谷歌的搜索结果,包括包含Reddit数据的结果。
"SearchGuard通过设置无法由自动化系统在常规过程中解决的障碍挑战来防止未经授权访问谷歌的搜索数据,除非它们采取积极行动来规避SearchGuard系统,"Reddit的投诉解释道。
绕过这些反抓取系统违反了《数字千年版权法》,Reddit还指控违反了关于不公平交易和不正当获利的规定。显然,谷歌的SearchGuard目前可能是被指控合谋者最容易绕过的系统,这些人据说在意识到无法直接在Reddit平台上访问内容后,转向掠夺谷歌SERP。
抓取公司的反应:惊讶与坚决否认
Reddit指控三家公司与Perplexity合谋——一家名为Oxylabs UAB的立陶宛数据抓取公司、一个名为AWMProxy的前俄罗斯僵尸网络,以及一家销售搜索引擎抓取服务的德克萨斯州公司SerpApi。
Oxylabs"明确表示其抓取服务旨在规避谷歌的技术措施,"Reddit指控道,指向一个名为"如何抓取谷歌搜索结果"的Oxylabs网站。
SerpApi也推广相同的服务,包括一些以"荒谬速度"抓取SERP的选项。为了欺骗浏览器,SerpApi最快的选项使用"服务器集群来隐藏、避免或通过蛮力有效措施谷歌已采取的措施来阻止对搜索引擎结果的自动化访问,"Reddit指控道。SerpApi还 allegedly 向用户提供"减少网络抓取时被阻止几率的提示,例如发送'假用户代理字符串[ s ]',转移IP地址以避免来自同一地址的多个请求,以及使用代理'使流量看起来像常规用户流量'并因此'冒充'用户流量。"
根据Reddit的说法,这三家公司"将他们的网络抓取工具伪装成普通人(除其他技术外)以规避或绕过旨在阻止他们的安全限制"。从谷歌获取信息的传票显示,在7月的两周内,他们抓取了"近三十亿"包含Reddit文本、URL、图像和视频的SERP。
Ars Technology未能立即联系AWMProxy置评。然而,其他公司对Reddit的诉讼表示惊讶,同时誓言捍卫其商业模式。
SerpApi的发言人对Ars表示,Reddit在提起诉讼前没有通知该公司。
"我们强烈不同意Reddit的指控,并打算在法庭上积极为自己辩护,"SerpApi的发言人说。"在我们经营的八年里,SerpApi一直合法经营。正如我们网站上所述,'公共数据的抓取和解析受美国宪法第一修正案保护。我们非常重视言论自由。'"
此外,SerpApi"与我们的律师密切合作,确保我们的服务遵守所有适用的法律和公平使用原则。SerpApi坚定地支持其商业模式和行为,并将继续最大限度地捍卫我们的权利,"发言人说。
Oxylabs的首席治理策略官Denas Grybauskas告诉Ars,Reddit的投诉似乎令人费解,因为诉讼中涉及的其他公司"无关且无关联"。
"我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们交谈或传达任何潜在关切,"Grybauskas说。"Oxylabs一直并将继续是公共数据收集的先驱和行业领导者,它不会犹豫对这些指控进行辩护。Oxylabs的立场是,没有公司应该声称不属于自己的公共数据所有权。这可能只是试图以 inflated 价格出售相同公共数据的尝试。"
Grybauskas捍卫Oxylabs的业务是为"数千企业和研究人员创造真实价值,例如那些推动开源调查、打击虚假信息或环境监测的企业"。
"我们坚信我们的核心业务原则使互联网变得更美好并服务于公共利益,"Grybauskas说。"Oxylabs为合规访问公开信息提供基础设施,我们要求每个客户合法使用我们的服务。"
Reddit的担忧:对许可协议的威胁
显然,Reddit在向Perplexity发送停止抓取其答案引擎引用的Reddit内容的 cease-and-desist 信函后,发现了所谓的计划。Reddit声称,Perplexity的引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户,Reddit假设两者合谋规避谷歌的反规避工具,投诉中还提到了其他公司。
在提供给Ars的声明中,Reddit的首席法律官Ben Lee表示,Oxylabs、AWMProxy和SerpApi是"抓取工具的典型例子",它们"绕过技术保护措施窃取数据,然后将其出售给渴望训练材料的客户"。
"无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将网络抓取工具伪装成普通人,以从谷歌搜索中窃取Reddit内容,"Lee说。"Perplexity至少是这些抓取工具的自愿客户,选择购买窃取的数据而不是与Reddit本身达成合法协议。"
在Reddit上,Perplexity反驳了Reddit关于Perplexity忽视许可Reddit内容要求的说法。
"不真实。每当有人询问我们内容许可时,我们解释说Perplexity作为应用层公司,不会在内容上训练AI模型,"Perplexity说。"从来没有。因此,我们不可能为此签署许可协议。"
Reddit"坚持我们无论如何都要付款,尽管我们合法访问Reddit数据,"Perplexity说。"屈服于强硬手段不是我们的行事方式。"
Perplexity的发言人Jesse Dwyer告诉Ars,该公司选择在Reddit上发布声明,"说明一个简单的观点"。
"这是一个公开的Reddit链接,任何人都可以访问,但根据Reddit诉讼的逻辑,如果你以任何方式提及或引用它(这是你作为记者的工作),他们可能会起诉你,"Dwyer说。
但Reddit声称,其业务和声誉因"数据挪用和技术控制措施规避"而受到"损害"。没有确保Perplexity等人尊重Reddit政策的许可协议,Reddit无法控制谁可以访问数据,他们如何使用数据,以及数据使用是否与Reddit的隐私政策和用户协议冲突,投诉中说。
此外,Reddit担心Perplexity的变通方法可能会流行开来,可能会破坏Reddit的其他许可协议。与此同时,Reddit指出,它必须投入"大量资源"用于反抓取技术,Reddit最终遭受损失,包括"利润损失和商业机会、声誉损害和用户信任丧失"。
Reddit希望法院能发出禁令,禁止公司从谷歌SERP抓取Reddit内容。它还希望阻止公司销售Reddit数据,以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。
如果Reddit胜诉,公司可能需要支付巨额赔偿或交出销售Reddit内容所获利润。
案件背后的深层含义
这场法律纠纷远不止是两家公司之间的商业冲突,它反映了数字时代几个关键问题的交汇:内容所有权的边界、数据获取的合法性、AI技术发展的伦理考量以及互联网开放性与商业利益之间的平衡。
内容所有权的重新定义
Reddit的诉讼挑战了一个长期存在的假设:一旦内容公开发布在互联网上,它就可以被任何人以任何方式使用。这一观点在AI时代尤其重要,因为训练大型语言模型需要海量数据,而许多公司正寻求通过抓取公开可用的内容来获取这些数据。
Reddit的立场是,即使内容公开可用,也不意味着它可以被商业性地抓取和用于训练AI模型,尤其是当这种抓绕过平台的技术控制措施时。这一立场可能会促使法院重新审视数字内容的所有权和使用权问题。
AI训练数据的合法性
Perplexity辩称它不训练基础模型,只是总结和引用内容。然而,随着AI技术的快速发展,区分"使用"数据和"训练"数据变得越来越困难。法院可能需要考虑的问题是:AI公司如何合法地获取训练数据?是否需要内容所有者的明确许可?
技术措施与法律保护
Reddit和谷歌都投入了大量资源开发反抓取技术,如Reddit的"注册用户识别限制、IP速率限制、验证码机器人保护和异常检测工具",以及谷歌的"SearchGuard"系统。这一案件将测试这些技术措施是否足以获得法律保护,以及规避这些措施的行为是否构成违法。
互联网开放性的商业边界
Perplexity将自己定位为"开放互联网"的捍卫者,而Reddit则主张"开放互联网"不应包括"滥用公共内容"。这一辩论反映了互联网日益商业化与开放精神之间的紧张关系。随着越来越多的内容平台寻求变现,互联网的开放性可能会面临新的挑战和重新定义。
结论:数字内容的新时代
Reddit对Perplexity的诉讼代表了数字内容领域的一个重要转折点。随着AI技术的快速发展,如何平衡数据获取的自由与内容所有者的权利将成为法律和商业领域的核心议题。
无论法院最终如何裁决,这一案件都将为AI公司如何合法获取训练数据、内容平台如何保护其数据以及互联网的开放性与商业利益如何共存提供重要先例。在数据成为新石油的时代,这场法律战争可能会定义数字内容的新时代规则。












