案件背景:Reddit与Perplexity的法律冲突
2025年10月,Reddit对AI搜索引擎Perplexity及其合作伙伴提起了引人注目的诉讼,指控其通过非法手段抓取Reddit内容。这场法律纠纷不仅涉及两家科技公司的商业利益,更触及了互联网内容所有权、数据使用边界以及人工智能训练数据获取方式等核心问题。
Reddit在诉讼中声称,Perplexity与其合作伙伴——立陶宛数据抓取公司Oxylabs UAB、前俄罗斯僵尸网络AWMProxy以及德克萨斯州的SerpApi——合谋绕过了Google和Reddit的反抓取措施,从Google搜索结果页面(SERPs)中非法获取Reddit内容。Reddit将这一行为比作"银行抢劫",并声称他们"当场抓获"了Perplexity的"非法行为"。
技术解析:从直接抓取到间接获取的演变
Reddit的反抓取措施
Reddit在诉讼中详细描述了其投入大量资源开发的多层次反抓取系统,包括:
- 注册用户识别限制
- IP速率限制
- 验证码机器人保护
- 异常检测工具
这些措施旨在保护Reddit平台上的用户生成内容不被未经授权地抓取和使用。Reddit强调,这些技术保护措施需要" substantial investments "(大量投资),而Perplexity及其合作伙伴通过绕过这些措施,不正当获得了Reddit的商业优势。
Google的SearchGuard系统
为了支持其指控,Reddit向Google发出传票,了解Google如何阻止AI抓取工具访问搜索结果页面。Google回应称,其依赖名为"SearchGuard"的技术访问控制系统,该系统专门设计用于阻止自动化系统获取大量搜索结果和索引数据,同时允许人类用户访问Google的搜索结果。
SearchGuard通过设置"无法被自动化系统在常规过程中解决的障碍挑战"来防止未授权访问Google的搜索数据。这意味着,任何试图获取Google搜索结果的自动化系统都需要采取积极行动来绕过SearchGuard系统,这可能违反《数字千年版权法》(DMCA)以及禁止不公平贸易和不正当得利的法律。
Perplexity的辩护:"开放互联网"与内容引用
面对Reddit的指控,Perplexity在其官方声明中否认了任何不当行为。Perplexity描述其答案引擎只是总结Reddit讨论并在回答中引用Reddit线程,这与任何在Reddit上分享链接或发布内容的用户行为相似。
Perplexity声称,Reddit试图为Reddit内容索取许可费是在攻击"开放互联网",尽管Perplexity明确表示它不会训练基础模型。Perplexity进一步推测,Reddit提起诉讼的真正目的是在Reddit与Google和OpenAI的训练数据谈判中"展示力量"。
"我们不会被勒索,我们也不会帮助Reddit勒索Google,即使他们是我们的(巨大)竞争对手,"Perplexity在声明中写道。"Perplexity会公平竞争,但我们不会屈服。我们也不会让更大的公司利用我们玩壳牌游戏。"
争议焦点:公共数据所有权与使用边界
Reddit的核心论点
Reddit在诉讼中强调,其业务和声誉因"数据挪用和技术控制措施规避"而受损。没有许可协议确保Perplexity等公司尊重Reddit政策,Reddit无法控制谁有权访问数据、如何使用数据,以及数据使用是否与Reddit的隐私政策和用户协议冲突。
Reddit还担心Perplexity的绕过方法可能会被广泛采用,从而可能破坏Reddit的其他许可协议。与此同时,Reddit必须投入大量资源开发反抓取技术,最终遭受包括"利润损失和商业机会、声誉损害和用户信任丧失"在内的损害。
被告方的回应
被指控的三家公司对Reddit的诉讼表示惊讶,并誓言捍卫其商业模式:
SerpApi:发言人表示Reddit在提起诉讼前没有通知该公司,并强烈反对Reddit的指控,声称"在八年的经营中,SerpApi一直合法经营"。SerpApi强调"公共数据的爬取和解析受美国宪法第一修正案保护"。
Oxylabs:首席治理战略官Denas Grybauskas表示Reddit的投诉"令人困惑",因为诉讼中涉及的其他公司"无关且无关联"。Grybauskas称Oxylabs"一直并将继续是公共数据收集的先驱和行业领导者",并认为这可能是"以 inflated price ( inflated price )出售相同公共数据的尝试"。
行业影响:AI训练数据获取的灰色地带
此案凸显了AI行业面临的一个核心挑战:如何合法获取高质量训练数据。随着AI模型规模的扩大和对多样化内容需求的增加,许多AI公司转向公开网络数据作为训练来源,但这引发了关于数据所有权、使用许可和公平补偿的复杂问题。
数据抓取服务的商业模式
像Oxylabs、AWMProxy和SerpApi这样的公司专门提供数据抓取服务,帮助客户绕过网站的反抓取措施。根据Reddit的指控,这些公司使用各种技术来伪装其网络爬虫为普通用户,包括:
- 发送"假用户代理字符串"
- 更改IP地址以避免来自同一地址的多次请求
- 使用代理使流量看起来像常规用户流量
SerpApi甚至提供"以荒谬速度抓取SERPs"的选项,使用"服务器集群来隐藏、避免或通过蛮力有效措施Google已建立的阻止对搜索引擎结果进行自动化访问的措施"。
对AI行业的影响
此案可能对AI行业产生深远影响。如果Reddit胜诉,可能会迫使AI公司重新考虑其数据获取策略,可能导致:
- 更多网站采取更严格的反抓取措施
- AI公司寻求更明确的许可协议
- 数据抓取服务的商业模式面临更严格的审查
此外,此案可能为其他面临类似问题的网站设立先例,包括新闻机构、社交媒体平台和内容创作社区,这些平台都依赖用户生成内容并投入大量资源保护这些内容。
法律分析:技术保护措施与合理使用
技术保护措施的法律地位
Reddit的诉讼指控Perplexity及其合作伙伴违反了《数字千年版权法》(DMCA),该法禁止规避技术保护措施。Google的SearchGuard系统被描述为一种技术保护措施,旨在防止未授权访问其搜索数据。
DMCA第1201条明确禁止规避有效控制访问受版权保护作品的技术措施。如果法院认定SearchGuard是DMCA意义上的有效技术保护措施,那么任何试图绕过它的行为都可能构成违法。
合理使用的争议
Perplexity和其合作伙伴辩称,他们只是在"引用"和"总结"公共可用的内容,这类似于传统媒体引用其他来源的做法。然而,Reddit反驳称,大规模、系统性的抓取和内容使用超出了合理使用的范畴。
合理使用的四个因素(使用目的和性质、版权作品的性质、使用部分的数量和实质性、对潜在市场或价值的影响)将是法院评估此案的关键。特别是,法院可能会考虑Perplexity的使用是否具有"转换性"(即是否以新的方式使用原始内容),以及这种使用是否对Reddit的市场造成了损害。
未来展望:互联网内容生态的重新平衡
Reddit的诉讼反映了内容所有者与AI公司之间日益紧张的关系。随着AI技术的快速发展,这种紧张关系可能会加剧,导致:
更严格的数据获取标准
未来,AI公司可能需要更严格的数据获取标准,包括:
- 明确的许可协议
- 对内容所有者的公平补偿
- 更透明的数据使用实践
这可能增加AI公司的运营成本,但也可能为内容所有者创造新的收入来源。
技术解决方案的发展
随着法律纠纷的增多,我们可以预期:
- 更先进的反抓取技术
- 更智能的内容保护系统
- 区分人类用户和自动化工具的新方法
Google的SearchGuard系统只是这一趋势的开始,未来可能会有更复杂的技术解决方案出现。
行业自律与标准制定
除了法律和技术解决方案外,行业自律和标准制定也可能在解决这一问题上发挥重要作用。AI公司和内容所有者可能需要共同努力,制定关于数据获取和使用的行业标准,确保各方利益得到平衡。
结论:平衡创新与权利保护
Reddit对Perplexity的诉讼代表了内容所有者在AI时代保护其权利的重要尝试。此案的核心问题是如何平衡技术创新与内容所有者的权利保护。
无论法院如何裁决,此案都凸显了AI行业面临的重要挑战:在利用公开数据推动创新的同时,尊重内容所有者的权利和投资。随着AI技术的不断发展,我们需要找到一种方法,既能促进创新,又能保护那些创造和分享内容的个人和组织的利益。
最终,此案可能不仅仅关乎Reddit和Perplexity的命运,而是关乎整个互联网内容生态系统的未来。在这个生态系统中,创新、权利保护、公平使用和商业可持续性需要找到新的平衡点。









