AI搜索引擎数据争夺战:Reddit起诉Perplexity绕过Google抓取内容

1

在数字内容与人工智能技术交汇的今天,数据获取方式的边界正成为科技行业争议的焦点。2025年10月,知名内容平台Reddit对AI搜索引擎Perplexity及其合作伙伴提起诉讼,指控其通过绕过Google的反抓取系统,非法获取Reddit内容。这一案件不仅揭示了AI发展中数据获取的灰色地带,更引发了关于数据所有权、互联网开放性和技术伦理的深刻思考。

Reddit的指控:"银行抢劫"式的内容获取

Reddit在提交的诉讼文件中,将Perplexity及其合作伙伴描述为"银行抢劫者",声称他们通过精心策划的方案,绕过Reddit和Google的反抓取措施,非法获取内容。

Reddit指控Perplexity虽然自称是"世界上第一个答案引擎",但实际上"并没有做任何突破性的事情"。诉讼文件指出:"它的答案引擎只是使用另一家公司的大型语言模型来解析大量Google搜索结果,试图根据这些结果回答用户的问题。但Perplexity只能通过错误访问和抓取Google自身搜索引擎中出现在Google搜索结果中的Reddit内容来运行其'答案引擎'。"

为了证明其指控,Reddit采取了一种"数字版标记钞票"的策略——发布仅在Google搜索结果页面(SERPs)中才能找到的内容,并在几小时内发现Perplexity的"答案引擎"中出现了这些测试帖子的内容。

"Perplexity唯一能够获取该Reddit内容并在其'答案引擎'中使用的方式是,它和/或其共同被告从Google SERPs中抓取该Reddit内容,然后迅速将这些数据整合到其答案引擎中,"Reddit的诉讼文件强调。

技术细节:Google的SearchGuard系统

为了支持其指控,Reddit传唤了Google,以了解这家搜索巨头如何阻止AI爬虫访问SERP上的内容。Google确认其依赖名为"SearchGuard"的技术访问控制系统,该系统旨在防止自动化系统获取大量搜索结果和索引数据,同时允许个别用户——即人类——访问Google的搜索结果,包括包含Reddit数据的结果。

Reddit的诉讼文件解释道:"SearchGuard通过设置无法被自动化系统在常规过程中解决的障碍挑战来防止未经授权访问Google的搜索数据,除非这些系统采取积极行动来规避SearchGuard系统。"

Reddit认为,绕过这些反抓取系统违反了《数字千年版权法》,以及禁止不公平贸易和不正当得利的法律。值得注意的是,Google的SearchGuard似乎是目前被指控的合谋者最容易绕过的系统,这些公司据说在意识到无法直接在Reddit平台上获取内容后,转向掠夺Google的SERPs。

被指控的合作伙伴:三家数据抓取公司

Reddit指控三家公司与Perplexity合谋——一家名为Oxylabs UAB的立陶宛数据抓取公司、一个被称为AWMProxy的前俄罗斯僵尸网络网络,以及一家销售搜索引擎抓取服务的德克萨斯公司SerpApi。

Reddit声称Oxylabs明确表示其抓取服务旨在规避Google的技术措施,并指向其名为"如何抓取Google搜索结果"的网站。同样,SerpApi也吹嘘相同的服务,包括以"荒谬速度"抓取SERPs的选项。为了欺骗浏览器,SerpApi最快的选项使用"服务器集群来隐藏、规避或通过蛮力有效措施Google为阻止对搜索引擎结果的自动化访问而采取的措施"。

Reddit还指控SerpApi向用户提供"减少在网页抓取时被阻止机会的提示,例如发送'伪造的用户代理字符串',更改IP地址以避免来自同一地址的多个请求,以及使用代理'使流量看起来像常规用户流量',从而'模仿'用户流量。"

根据Reddit的说法,这三家公司通过"将他们的网页爬虫伪装成普通人(除其他技术外)来规避或绕过旨在阻止他们的安全限制"。从Google获取信息的传票显示,在7月的两周内,他们抓取了近"三十亿"包含Reddit文本、URL、图像和视频的SERPs。

被告的回应:惊讶与辩护

Ars Technica未能立即联系到AWMProxy置评。然而,其他两家公司对Reddit的诉讼表示惊讶,同时誓言捍卫自己的商业模式。

SerpApi的发言人对Ars表示,Reddit在提起诉讼前没有通知该公司。

"我们强烈不同意Reddit的指控,并打算在法庭上坚决为自己辩护,"SerpApi的发言人说。"在我们经营的八年里,SerpApi一直合法经营。正如我们网站上所述,'公共数据的爬取和解析受美国宪法第一修正案保护。我们非常重视言论自由。"

此外,SerpApi表示"我们与律师密切合作,确保我们的服务遵守所有适用法律和公平使用原则。SerpApi坚定地支持其商业模式和行为,并将继续尽最大力度捍卫我们的权利。"

Oxylabs的首席治理策略官Denas Grybauskas告诉Ars,Reddit的投诉似乎令人困惑,因为诉讼中涉及的其他公司是"无关且无关联的"。

"我们对这一消息感到震惊和失望,因为Reddit没有尝试直接与我们交谈或沟通任何潜在关切,"Grybauskas说。"Oxylabs一直并将继续是公共数据收集的先驱和行业领导者,它不会犹豫对这些指控进行辩护。Oxylabs的立场是,没有公司应该声称不属于他们的公共数据所有权。这可能只是试图以 inflated 价格出售相同公共数据的尝试。"

Grybauskas为Oxylabs的业务辩护称,它为"数千家企业和研究人员创造真实世界的价值,例如那些推动开源调查、虚假信息打击或环境监测的研究人员。"

"我们坚信我们的核心业务原则使互联网变得更好并服务于公共利益,"Grybauskas说。"Oxylabs为合规访问公开信息提供基础设施,我们要求每个客户合法使用我们的服务。"

争议的根源:授权与商业模式

Reddit声称,在向Perplexity发送停止抓取其答案引擎引用的Reddit内容的 cease-and-desist 信函后,Perplexity没有停止抓取,反而使引用增加了"四十倍"。由于Perplexity是SerpApi网站上列出的客户,Reddit假设这两家公司在与其他公司一起规避Google的反规避工具。

在提供给Ars的声明中,Reddit的首席法律官Ben Lee表示,Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施以窃取数据,然后将其出售给渴望训练材料的客户的教科书式例子"。

"无法直接抓取Reddit,他们掩盖身份,隐藏位置,并将他们的网页爬虫伪装成从Google搜索窃取Reddit内容,"Lee说。"Perplexity是这些抓取器中至少一个的自愿客户,选择购买窃取的数据,而不是与Reddit本身签订合法协议。"

然而,Perplexity在Reddit上反驳了Reddit关于Perplexity忽视Reddit内容授权要求的说法。

"不真实。每当有人询问我们关于内容授权的事宜,我们解释说Perplexity作为应用层公司,不会在内容上训练AI模型,"Perplexity说。"从来没有。所以,我们不可能签署此类许可协议。"

Perplexity声称Reddit"坚持要我们付费,尽管我们合法访问Reddit数据",并补充道:"屈服于强硬手段不是我们的行事方式。"

Perplexity的发言人Jesse Dwyer告诉Ars,该公司选择在Reddit上发布其声明,"是为了说明一个简单的观点"。

"这是一个任何人都可访问的公共Reddit链接,但根据Reddit诉讼的逻辑,如果你以任何方式提及或引用它(这是你作为记者的工作),他们可能会起诉你,"Dwyer说。

Reddit的担忧与诉讼目标

Reddit声称,其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受到"损害"。没有确保Perplexity等人尊重Reddit政策的授权协议,Reddit无法控制谁有权访问数据、他们如何使用数据,以及数据使用是否与Reddit的隐私政策和用户协议冲突,诉讼文件中指出。

此外,Reddit担心Perplexity的变通方法可能会被效仿,从而可能破坏Reddit的其他授权协议。与此同时,Reddit指出,它必须投入"大量资源"用于反抓取技术,最终Reddit遭受损失,包括"利润损失和商业机会、声誉损害和用户信任丧失"。

Reddit希望法院能够颁布禁令,禁止公司从Google SERPs抓取Reddit内容。它还希望阻止公司销售Reddit数据,以及"开发或分发用于未经授权规避技术控制措施和抓取Reddit数据的任何技术或产品"。

如果Reddit胜诉,公司可能需要支付大量损害赔偿,或交出销售Reddit内容所获的利润。

行业影响与未来展望

这一案件反映了AI行业中数据获取的复杂性和争议性。随着AI技术的快速发展,训练数据的获取方式成为行业关注的焦点。一方面,AI公司需要大量数据来训练和改进模型;另一方面,内容平台需要保护其数据资产和用户隐私。

此案可能对行业产生深远影响:

  1. 数据获取的规范化:案件可能推动数据获取法规的完善,明确哪些数据可以合法使用,以及使用方式。

  2. 授权模式的创新:内容平台与AI公司之间可能发展出新的授权模式,既保护内容创作者权益,又满足AI发展需求。

  3. 技术防护的升级:平台可能会投入更多资源开发更先进的反抓取技术,而抓取公司则可能寻找更隐蔽的获取方式。

  4. 行业标准的建立:案件可能促进行业标准的建立,明确AI训练数据获取的伦理和法律边界。

结论:在创新与权益之间寻找平衡

Reddit对Perplexity的诉讼代表了数字内容时代的一个关键转折点。随着AI技术的快速发展,如何在促进创新的同时保护内容创作者和平台的权益,成为行业面临的共同挑战。

这一案件提醒我们,技术进步需要在尊重知识产权、保护用户隐私和促进创新之间找到平衡点。无论案件结果如何,它都将为AI行业的数据获取实践提供重要参考,并可能影响未来相关法律法规的制定。

在AI与互联网内容交织的未来,我们需要建立更加透明、公平的数据获取机制,既保护内容创作者的权益,又促进AI技术的健康发展。这需要行业参与者、监管机构和用户的共同努力,共同构建一个既开放又尊重知识产权的数字生态系统。

AI数据争议

AI技术发展中的数据获取争议反映了创新与权益保护的平衡挑战

案件可能的后续发展

随着案件的发展,我们可能会看到以下几种情况:

  1. 和解谈判:在诉讼过程中,双方可能进行和解谈判,达成某种授权协议。

  2. 行业联盟的形成:类似案件可能促使行业联盟的形成,共同制定数据获取标准。

  3. 监管介入:案件可能引起监管机构的关注,推动相关法规的完善。

  4. 技术对抗升级:平台与抓取公司之间的技术对抗可能进一步升级,推动反抓取和反反抓取技术的发展。

无论案件如何发展,它都将对AI行业的数据获取实践产生深远影响,并可能为类似案例提供重要参考。在这个数据成为关键资源时代,如何合法、合规地获取和使用数据,将成为AI行业必须面对的核心问题。