AI搜索引擎数据争议:Reddit起诉Perplexity非法抓取Google搜索内容

1

在数字时代,数据已成为人工智能发展的核心燃料。然而,数据的获取与使用边界问题日益凸显。2025年10月,知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼,指控其通过非法手段从Google搜索结果中抓取Reddit内容,引发了关于数据所有权、技术防护与AI发展伦理的广泛讨论。

诉讼核心:"银行抢劫者"式的数据获取

Reddit在诉讼中将Perplexity及其合作伙伴描述为"银行抢劫者",声称其"当场被抓"(red-handed)在窃取本不应访问的内容。Reddit指控Perplexity与多家公司合谋,通过绕过Google和Reddit的反抓取系统,非法获取Reddit内容用于其"答案引擎"。

Reddit认为,Perplexity虽然自称"世界首个答案引擎",但实际上"没有做任何突破性工作"。其所谓的创新,实质上是利用其他公司的大型语言模型解析Google搜索结果,而其中大量内容来自Reddit。

"数字标记钞票"测试法

为了证明其指控,Reddit采取了一种独特的测试方法——在Google搜索结果中发布特定内容,作为"数字标记钞票"。令人震惊的是,"在几小时内,对Perplexity'答案引擎'的查询就产生了该测试帖子的内容"。Reddit坚称,Perplexity唯一能获取这些内容的方式是通过抓取Google搜索结果中的Reddit数据。

这种测试方法不仅展示了Reddit的技术能力,也揭示了AI搜索引擎在数据获取上的灰色地带。当直接抓取Reddit内容变得困难时,这些公司转而通过Google作为"中转站"获取数据,形成了一种迂回的数据获取策略。

技术防护与反制措施

Reddit和Google都投入了大量资源开发反抓取技术。Reddit采用"注册用户识别限制、IP速率限制、验证码机器人保护以及异常检测工具"等多种措施保护其内容。而Google则开发了名为"SearchGuard"的技术访问控制系统,专门防止自动化系统批量获取搜索结果和索引数据。

SearchGuard通过设置"屏障挑战"来阻止未经授权的访问,这种挑战无法被普通自动化系统解决,除非采取积极行动绕过该系统。Reddit认为,绕过这些系统违反了《数字千年版权法》以及关于不公平贸易和不正当获利的法律。

被告方回应:"开放互联网"的捍卫者

面对诉讼,Perplexity否认任何不当行为,声称其答案引擎只是总结Reddit讨论并在答案中引用Reddit帖子,就像任何在Reddit上分享链接或发布内容的用户一样。Perplexity指责Reddit试图为Reddit内容勒索许可费,破坏开放互联网的原则。

Perplexity暗示,Reddit的真正目的是利用此次诉讼作为"在Reddit与Google和OpenAI的训练数据谈判中展示力量的手段"。该公司在Reddit上声明:"我们不会被勒索,也不会帮助Reddit勒索Google,即使他们是我们的(巨大)竞争对手。Perplexity会公平竞争,但我们不会屈服。我们不会让更大的公司用我们玩壳牌游戏。"

三家被指控的合作伙伴

Reddit指控三家公司与Perplexity合谋:立陶宛数据抓取公司Oxylabs UAB、前俄罗斯僵尸网络AWMProxy以及德克萨斯州的SerpApi公司。

  • Oxylabs:Reddit指控其明确表示其抓取服务旨在规避Google的技术措施,并指向其名为"如何抓取Google搜索结果"的网站。
  • SerpApi:被指控提供以"荒谬速度"抓取SERP的服务,并使用"服务器集群"来规避Google的反自动化访问措施。此外,还 allegedly 提供用户"减少被阻止机会"的技巧,如发送"假用户代理字符串"、切换IP地址和使用代理使流量看起来像普通用户流量。
  • AWMProxy:被描述为"前俄罗斯僵尸网络",Ars Technica未能立即联系到该公司置评。

行业反应与法律立场

被指控的公司对Reddit的诉讼表示惊讶,并誓言捍卫其商业模式。

SerpApi的发言人表示,Reddit在提起诉讼前未通知该公司,并强调:"我们强烈不同意Reddit的指控,并打算在法庭上坚决捍卫自己。在我们八年的业务中,SerpApi一直合法经营。正如我们网站上所述,'公共数据的抓取和解析受美国宪法第一修正案保护。我们非常重视言论自由。'"

Oxylabs的首席治理战略官Denas Grybauskas表示,Reddit的投诉令人费解,因为涉诉的其他公司"无关且无关联"。他补充道:"我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们沟通或表达任何潜在担忧。Oxylabs一直并将继续是公共数据收集的先驱和行业领导者,它不会犹豫捍卫自己对这些指控的立场。"

数据授权与商业模式冲突

Reddit声称,在向Perplexity发送停止抓取Reddit内容的 cease-and-desistent 信函后,Perplexity的引用反而增加了"四十倍"。Reddit推测,由于Perplexity是SerpApi网站列出的客户,两者可能合谋规避Google的反规避工具。

Reddit首席法律官Ben Lee表示,Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据,然后将其出售给渴望训练材料的客户的教科书式例子"。他指控Perplexity"选择购买被盗数据,而不是与Reddit本身签订合法协议"。

然而,Perplexity反驳了Reddit关于其忽视内容授权要求的说法。该公司表示:"不真实。每当有人询问我们关于内容授权的问题时,我们解释说Perplexity作为应用层公司,不会在内容上训练AI模型。从来没有。因此,我们不可能签署此类许可证协议。"

深层次影响:AI训练数据的获取困境

此次争议揭示了AI行业面临的一个核心问题:如何合法获取训练数据。随着大型语言模型的发展,高质量文本数据的需求激增,而公开可获取的数据源日益减少。

Reddit的担忧不仅限于数据被不当使用,还包括其商业模式和声誉可能受到"数据挪用和技术控制措施规避"的损害。如果没有许可协议确保Perplexity等公司尊重Reddit的政策,Reddit就无法控制谁可以访问数据、如何使用数据以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外,Reddit还担心Perplexity的变通方法可能会被其他公司效仿,从而影响Reddit的其他授权协议。同时,Reddit不得不投入"大量资源"用于反抓取技术,最终遭受损失,包括"利润损失和商业机会、声誉损害和用户信任丧失"。

法律诉求与行业展望

Reddit希望法院能够颁布禁令,禁止公司从Google SERP抓取Reddit内容,并阻止公司销售Reddit数据以及"开发或分发用于未经授权规避技术控制措施和抓取Reddit数据的任何技术或产品"。如果Reddit胜诉,相关公司可能需要支付巨额赔偿或交出因销售Reddit内容而获得的利润。

此次争议反映了数字内容所有权、技术防护与AI发展之间的复杂关系。随着AI技术的不断进步,类似的法律纠纷可能会变得更加普遍。如何在保护内容创造者权益的同时,促进AI技术的创新与发展,将是行业和政策制定者需要共同面对的挑战。

在数据成为AI发展关键资源的今天,建立清晰、合理的数据获取和使用规则,对于维护健康的数字生态系统至关重要。此次Reddit与Perplexity的争议,或许正是这一过程中的一个重要转折点。