案件背景:Reddit指控Perplexity"红手"偷窃数据
2025年10月,Reddit对AI搜索引擎Perplexity提起诉讼,指控其与多家公司合谋,通过Google搜索结果非法抓取Reddit内容,绕过了需要Google和Reddit大量投资的反抓取措施。这一案件引发了人们对互联网内容所有权、AI训练数据获取方式以及技术保护措施有效性的广泛关注。
Reddit在诉讼中将涉嫌合谋的公司比作"银行抢劫犯",声称他们"当场抓获"了Perplexity正在窃取其"答案引擎"本不应访问的内容。Reddit认为,Perplexity声称自己是"世界上第一个答案引擎",但实际上"并没有做任何突破性的事情"。
指控详情:Perplexity如何窃取Reddit内容
"标记钞票"测试证实抓取行为
Reddit通过一种被称为"数字标记钞票"的策略测试了Perplexity的行为。Reddit发布了一些只能在Google搜索引擎结果页面(SERP)中找到的内容,并在"几小时内",针对Perplexity"答案引擎"的查询就产生了该测试帖子的内容。
Reddit在诉讼中指出:"Perplexity能够获得该Reddit内容并在其'答案引擎'中使用的唯一方式是,它和/或其共同被告从Google SERPs中抓取了该Reddit内容,然后Perplexity迅速将这些数据整合到其答案引擎中。"
技术手段:绕过反抓取系统
Reddit和Google都实施了多种措施来阻止内容抓取。Reddit使用"注册用户身份识别限制、IP速率限制、验证码机器人保护和异常检测工具"等手段。而Google则依靠名为"SearchGuard"的技术访问控制系统,旨在阻止自动化系统获取大量搜索结果和索引数据,同时允许个别用户(即人类)访问Google的搜索结果。
Reddit声称,绕过这些反抓取系统违反了《数字千年版权法》(DMCA),以及反对不公平贸易和不正当获利的法律。Google的SearchGuard似乎是目前被 alleged 合谋者最容易绕过的系统,这些公司据称在意识到无法直接访问Reddit内容后,转向掠夺Google SERPs。
相关公司:被指控的"合谋者"
Reddit指控三家公司与Perplexity合谋:一家名为Oxylabs UAB的立陶宛数据抓取公司、一个被称为AWMProxy的前俄罗斯僵尸网络,以及一家销售搜索引擎抓取服务的德克萨斯公司SerpApi。
Oxylabs UAB
Reddit指控Oxylabs明确表示其抓取服务旨在规避Google的技术措施,并指向Oxylabs网站上的"如何抓取Google搜索结果"页面。Oxylabs的首席治理战略官Denas Grybauskas对Reddit的投诉表示"困惑",称其他参与诉讼的公司"无关且无关联"。
"我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们沟通或传达任何潜在 concerns,"Grybauskas说。"Oxylabs一直并将继续是公共数据收集的先驱和行业领导者,它不会犹豫对这些指控进行辩护。"
SerpApi
SerpApi吹捧同样的服务,包括一些以"荒谬速度"抓取SERPs的选项。Reddit指控SerpApi使用"服务器集群来隐藏、避免或通过蛮力有效措施Google已经采取的阻止对搜索引擎结果进行自动化访问的措施"。
SerpApi的发言人对Ars表示,Reddit在提起诉讼前没有通知该公司。
"我们强烈不同意Reddit的指控,并打算在法庭上积极为自己辩护,"SerpApi的发言人说。"在我们经营的八年里,SerpApi一直合法运营。正如我们网站上所述,'公共数据的爬取和解析受美国宪法第一修正案保护。我们非常重视言论自由。'"
双方立场:截然不同的叙事
Reddit的立场
Reddit首席法律官Ben Lee在给Ars的声明中表示,Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据,然后出售给渴望训练材料的客户的教科书例子"。
"无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将网络抓取工具伪装成普通用户,以从Google搜索中窃取Reddit内容,"Lee说。"Perplexity至少是这些抓取工具之一的自愿客户,选择购买被盗数据,而不是与Reddit本身签订合法协议。"
Reddit声称,其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受到"损害"。没有确保Perplexity等人尊重Reddit政策的许可协议,Reddit无法控制谁有权访问数据、如何使用数据,以及数据使用是否与Reddit的隐私政策和用户协议冲突。
此外,Reddit担心Perplexity的变通方法可能会流行开来,可能破坏Reddit的其他许可协议。与此同时,Reddit指出,它必须投入"大量资源"用于反抓取技术,最终导致Reddit遭受损失,包括"利润损失和商业机会、声誉损害和用户信任丧失"。
Perplexity的辩护
在Reddit的一篇帖子中,Perplexity否认任何不当行为,将其答案引擎描述为总结Reddit讨论并在答案中引用Reddit线程,就像任何在Reddit上分享链接或发帖的人可能做的那样。
Perplexity暗示Reddit试图通过为Reddit内容索取许可费来攻击开放互联网,尽管知道Perplexity不训练基础模型。Perplexity指控Reddit的最终目的是利用Perplexity诉讼作为"Reddit在与Google和OpenAI的训练数据谈判中展示力量的手段"。
"我们不会受到敲诈,我们也不会帮助Reddit敲诈Google,即使他们是我们的(巨大)竞争对手,"Perplexity写道。"Perplexity会公平竞争,但我们不会屈服。我们不会让更大的公司用我们玩壳游戏。"
Perplexity还反驳了Reddit关于其忽视许可请求的说法。
"不真实。每当有人询问我们关于内容许可的事情时,我们解释说Perplexity作为应用层公司,不在内容上训练AI模型,"Perplexity说。"从来没有。所以,我们不可能为此签署许可协议。"
Perplexity声称Reddit"坚持我们无论如何都要付款,尽管我们合法访问Reddit数据",并表示"屈服于强硬手段不是我们的做事方式"。
Perplexity的发言人Jesse Dwyer告诉Ars,该公司选择在Reddit上发布声明"来说明一个简单的观点"。
"这是一个任何人都可访问的公共Reddit链接,但按照Reddit诉讼的逻辑,如果你以任何方式提及或引用它(这是你作为记者的工作),他们可能会起诉你,"Dwyer说。
Reddit的反制措施与法律诉求
Reddit希望法院发布禁令,阻止公司从Google SERPs抓取Reddit内容。它还希望公司被禁止出售Reddit数据,以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。
如果Reddit胜诉,这些公司可能需要支付大量损害赔偿,或交出出售Reddit内容所获得的利润。
Reddit在其投诉中指出,其当前的Robots排除协议文件("robots.txt")表示:"Reddit相信开放互联网,但不滥用公共内容。"
案件影响:对互联网内容生态的深远影响
对AI行业的影响
此案可能对AI行业产生重大影响,特别是那些依赖网络抓取获取训练数据的公司。如果法院支持Reddit的立场,可能会迫使AI公司重新考虑其数据获取策略,可能导致更高的许可成本或更有限的数据访问。
对互联网开放性的挑战
此案也引发了关于互联网开放性与内容所有权之间平衡的讨论。Perplexity辩称Reddit试图通过索取许可费来攻击开放互联网,而Reddit则表示支持开放互联网,但不滥用公共内容。
对技术保护措施的影响
此案还突显了技术保护措施在防止数据抓取方面的局限性。尽管Reddit和Google都实施了复杂的系统来阻止抓取,但 alleged 合谋者似乎找到了绕过这些系统的方法。
未来展望:互联网内容使用规则的重塑
Reddit与Perplexity之间的法律纠纷可能只是未来更多类似案件的开始。随着AI技术的快速发展,对训练数据的需求不断增加,而互联网内容的所有权和使用权问题也变得越来越复杂。
此案的结果可能会为未来的互联网内容使用规则设定先例,影响从AI开发到数据抓取服务的各个方面。无论法院如何裁决,这一案件都标志着互联网内容生态的一个重要转折点,可能会重塑我们对数据所有权、访问权和使用权的基本理解。
结论:技术进步与法律框架的博弈
Reddit起诉Perplexity的案件反映了技术进步与现有法律框架之间的紧张关系。随着AI技术的快速发展,现有的法律和道德框架正在面临前所未有的挑战。这一案件的结果可能会对互联网内容生态、AI行业的发展以及数据获取的基本规则产生深远影响。
无论最终裁决如何,这一案件都凸显了在数字时代重新思考内容所有权、访问权和使用权的重要性。随着技术的不断进步,我们需要不断更新法律和道德框架,以确保创新与保护之间的平衡,同时尊重创作者的权利和用户的利益。











