AI搜索引擎数据窃取案：Reddit起诉Perplexity引发互联网内容使用权之争

案件背景：Reddit指控Perplexity"红手"偷窃数据

2025年10月，Reddit对AI搜索引擎Perplexity提起诉讼，指控其与多家公司合谋，通过Google搜索结果非法抓取Reddit内容，绕过了需要Google和Reddit大量投资的反抓取措施。这一案件引发了人们对互联网内容所有权、AI训练数据获取方式以及技术保护措施有效性的广泛关注。

Reddit在诉讼中将涉嫌合谋的公司比作"银行抢劫犯"，声称他们"当场抓获"了Perplexity正在窃取其"答案引擎"本不应访问的内容。Reddit认为，Perplexity声称自己是"世界上第一个答案引擎"，但实际上"并没有做任何突破性的事情"。

指控详情：Perplexity如何窃取Reddit内容

"标记钞票"测试证实抓取行为

Reddit通过一种被称为"数字标记钞票"的策略测试了Perplexity的行为。Reddit发布了一些只能在Google搜索引擎结果页面(SERP)中找到的内容，并在"几小时内"，针对Perplexity"答案引擎"的查询就产生了该测试帖子的内容。

Reddit在诉讼中指出："Perplexity能够获得该Reddit内容并在其'答案引擎'中使用的唯一方式是，它和/或其共同被告从Google SERPs中抓取了该Reddit内容，然后Perplexity迅速将这些数据整合到其答案引擎中。"

技术手段：绕过反抓取系统

Reddit和Google都实施了多种措施来阻止内容抓取。Reddit使用"注册用户身份识别限制、IP速率限制、验证码机器人保护和异常检测工具"等手段。而Google则依靠名为"SearchGuard"的技术访问控制系统，旨在阻止自动化系统获取大量搜索结果和索引数据，同时允许个别用户(即人类)访问Google的搜索结果。

Reddit声称，绕过这些反抓取系统违反了《数字千年版权法》(DMCA)，以及反对不公平贸易和不正当获利的法律。Google的SearchGuard似乎是目前被 alleged 合谋者最容易绕过的系统，这些公司据称在意识到无法直接访问Reddit内容后，转向掠夺Google SERPs。

双方立场：截然不同的叙事

Reddit的立场

Reddit首席法律官Ben Lee在给Ars的声明中表示，Oxylabs、AWMProxy和SerpApi是"绕过技术保护措施窃取数据，然后出售给渴望训练材料的客户的教科书例子"。

"无法直接抓取Reddit，他们掩盖身份，隐藏位置，并将网络抓取工具伪装成普通用户，以从Google搜索中窃取Reddit内容，"Lee说。"Perplexity至少是这些抓取工具之一的自愿客户，选择购买被盗数据，而不是与Reddit本身签订合法协议。"

Reddit声称，其业务和声誉因"Reddit数据的挪用和技术控制措施的规避"而受到"损害"。没有确保Perplexity等人尊重Reddit政策的许可协议，Reddit无法控制谁有权访问数据、如何使用数据，以及数据使用是否与Reddit的隐私政策和用户协议冲突。

此外，Reddit担心Perplexity的变通方法可能会流行开来，可能破坏Reddit的其他许可协议。与此同时，Reddit指出，它必须投入"大量资源"用于反抓取技术，最终导致Reddit遭受损失，包括"利润损失和商业机会、声誉损害和用户信任丧失"。

Perplexity的辩护

在Reddit的一篇帖子中，Perplexity否认任何不当行为，将其答案引擎描述为总结Reddit讨论并在答案中引用Reddit线程，就像任何在Reddit上分享链接或发帖的人可能做的那样。

Perplexity暗示Reddit试图通过为Reddit内容索取许可费来攻击开放互联网，尽管知道Perplexity不训练基础模型。Perplexity指控Reddit的最终目的是利用Perplexity诉讼作为"Reddit在与Google和OpenAI的训练数据谈判中展示力量的手段"。

"我们不会受到敲诈，我们也不会帮助Reddit敲诈Google，即使他们是我们的(巨大)竞争对手，"Perplexity写道。"Perplexity会公平竞争，但我们不会屈服。我们不会让更大的公司用我们玩壳游戏。"

Perplexity还反驳了Reddit关于其忽视许可请求的说法。

"不真实。每当有人询问我们关于内容许可的事情时，我们解释说Perplexity作为应用层公司，不在内容上训练AI模型，"Perplexity说。"从来没有。所以，我们不可能为此签署许可协议。"

Perplexity声称Reddit"坚持我们无论如何都要付款，尽管我们合法访问Reddit数据"，并表示"屈服于强硬手段不是我们的做事方式"。

Perplexity的发言人Jesse Dwyer告诉Ars，该公司选择在Reddit上发布声明"来说明一个简单的观点"。

"这是一个任何人都可访问的公共Reddit链接，但按照Reddit诉讼的逻辑，如果你以任何方式提及或引用它(这是你作为记者的工作)，他们可能会起诉你，"Dwyer说。

Reddit的反制措施与法律诉求

Reddit希望法院发布禁令，阻止公司从Google SERPs抓取Reddit内容。它还希望公司被禁止出售Reddit数据，以及"开发或分发任何用于未经授权规避技术控制措施和抓取Reddit数据的技术或产品"。

如果Reddit胜诉，这些公司可能需要支付大量损害赔偿，或交出出售Reddit内容所获得的利润。

Reddit在其投诉中指出，其当前的Robots排除协议文件("robots.txt")表示："Reddit相信开放互联网，但不滥用公共内容。"

案件影响：对互联网内容生态的深远影响

对AI行业的影响

此案可能对AI行业产生重大影响，特别是那些依赖网络抓取获取训练数据的公司。如果法院支持Reddit的立场，可能会迫使AI公司重新考虑其数据获取策略，可能导致更高的许可成本或更有限的数据访问。

对互联网开放性的挑战

此案也引发了关于互联网开放性与内容所有权之间平衡的讨论。Perplexity辩称Reddit试图通过索取许可费来攻击开放互联网，而Reddit则表示支持开放互联网，但不滥用公共内容。

对技术保护措施的影响

此案还突显了技术保护措施在防止数据抓取方面的局限性。尽管Reddit和Google都实施了复杂的系统来阻止抓取，但 alleged 合谋者似乎找到了绕过这些系统的方法。

未来展望：互联网内容使用规则的重塑

Reddit与Perplexity之间的法律纠纷可能只是未来更多类似案件的开始。随着AI技术的快速发展，对训练数据的需求不断增加，而互联网内容的所有权和使用权问题也变得越来越复杂。

此案的结果可能会为未来的互联网内容使用规则设定先例，影响从AI开发到数据抓取服务的各个方面。无论法院如何裁决，这一案件都标志着互联网内容生态的一个重要转折点，可能会重塑我们对数据所有权、访问权和使用权的基本理解。

结论：技术进步与法律框架的博弈

Reddit起诉Perplexity的案件反映了技术进步与现有法律框架之间的紧张关系。随着AI技术的快速发展，现有的法律和道德框架正在面临前所未有的挑战。这一案件的结果可能会对互联网内容生态、AI行业的发展以及数据获取的基本规则产生深远影响。

无论最终裁决如何，这一案件都凸显了在数字时代重新思考内容所有权、访问权和使用权的重要性。随着技术的不断进步，我们需要不断更新法律和道德框架，以确保创新与保护之间的平衡，同时尊重创作者的权利和用户的利益。