Web基础设施巨头反抗Google AI摘要:robots.txt革命如何重塑互联网生态

0

在数字世界的无形战场上,一场悄无声息的革命正在上演。Cloudflare,这家支撑着全球近20%互联网基础设施的公司,正在通过一个看似简单的技术文件——robots.txt——向科技巨头Google发起挑战。这场行动不仅关乎两家公司的商业利益,更可能重塑整个互联网的内容生态和商业模式。

从搜索引擎到AI摘要:互联网内容使用规则的剧变

自2023年以来,Google推出了允许网站管理员选择退出其大型语言模型训练内容的选项,如Gemini。然而,这种选择退出机制存在一个根本性缺陷:它无法将传统搜索引擎索引与检索增强生成(RAG)的使用分离开来。这意味着,网站所有者若要保持Google搜索流量,就必须接受其内容被用于生成AI摘要的现实。

这种捆绑策略引发了广泛不满。从发布新闻的媒体公司到 producing研究报告的投资银行,众多内容创作者发现自己的收入正在因AI摘要而锐减。皮尤研究中心2025年7月的一项研究显示,当搜索结果页面顶部出现AI摘要时,用户点击链接的比例仅为8%,而没有摘要的页面这一比例为15%,几乎减少了一半。

《华尔街日报》援引包括《纽约时报》和商业内幕在内的多家主要出版机构的内部流量数据指出,与AI摘要相关的网站流量普遍大幅下降,导致多家媒体公司裁员并调整战略。

尽管Google搜索主管Liz Reid辩称总体有机点击量保持稳定,出版商们显然不买账。2025年9月,拥有《好莱坞报道》和《滚石》等品牌的Penske媒体公司甚至对Google提起了诉讼,称其联盟链接收入在过去一年下降了三分之一以上,主要归因于Google的摘要功能。

Cloudflare的反击:Content Signals Policy的革命性意义

面对这一困境,Cloudflare在2025年9月24日宣布了其Content Signals Policy,这是一项旨在改变网络爬虫如何使用内容的重大举措。该政策涉及更新数百万网站的robots.txt文件,引入了一个新的标准格式,允许网站所有者明确控制其内容的不同使用场景。

Cloudflare CEO Matthew Prince

Cloudflare首席执行官Matthew Prince表示:"几乎每一个合理的AI公司都在说,如果竞争环境公平,他们愿意为内容付费。问题是,他们都害怕Google,因为如果Google能免费获取内容而他们却必须付费,他们总是处于固有劣势。"

传统的robots.txt文件自1994年以来一直存在,它告诉爬虫哪些网页可以抓取,哪些不可以。但它从未明确说明抓取内容后可以如何使用。Cloudflare的新标准引入了三个关键类别:

  1. search:构建搜索索引和提供搜索结果
  2. ai-input:将内容输入到一个或多个AI模型(如RAG、或其他实时获取内容用于生成AI搜索答案)
  3. ai-train:训练或微调AI模型

Cloudflare已为其所有客户提供了设置这些值的便捷途径,并自动为其380万个使用Cloudflare托管robots.txt功能的域名更新了文件,默认允许搜索,禁止AI训练,对AI输入保持中立立场。

法律博弈:技术协议背后的战略考量

Cloudflare精心设计这一政策,使其看起来像一份服务协议,其明确目标是通过法律压力迫使Google改变其捆绑传统搜索爬虫和AI摘要的做法。

"不要误解,Google的法律团队正在审视这一变化,说:'哦,现在我们不得不主动选择忽略网络上的很大一部分内容,'"Prince解释道。

Cloudflare将这一设计明确为许可协议,旨在向Google传达一个明确信息:如果他们继续抓取这些网站的内容,就存在明确的授权许可;如果不遵循这些规则,他们将面临法律风险。

这一策略的精妙之处在于,它利用了Google内部存在的分歧。Prince指出:"在Google内部,存在一场争论,有人说我们应该改变做法,而另一些人则说,这会放弃我们的固有优势,我们对互联网上的所有内容拥有天然权利。"

互联网范式转变:从链接经济到内容授权

这场行动之所以具有潜在影响力,很大程度上归功于Cloudflare的规模。如果只有少数网站做出这一改变,Google可能会更容易忽视,或者干脆停止抓取这些网站以避免问题。但由于Cloudflare与数百万网站紧密相连,Google若采取这种做法,将显著影响搜索体验质量。

互联网基础设施变革

这场博弈的核心是互联网经济基础的根本转变。从数字出版早期开始,推荐流量在某种程度上一直是网络经济的支柱。内容可以免费提供给人类读者和爬虫,网络规范被应用于整个网络,以允许信息追溯其来源,并给来源提供变现内容以维持自身的机会。

如今,随着RAG内容摘要变得越来越普遍,人们担心旧系统不再有效。Cloudflare等公司正试图更新这些规范,以反映当前现实。

值得注意的是,Cloudflare在这一变革中既有维护网络健康的既得利益,也有其他战略考量。该公司一直在与Google竞争对手Bing合作开发工具,帮助客户网站实现RAG,并试验了一个市场,为网站提供向爬虫收费抓取内容用于AI的途径,尽管这一市场的最终形式仍不明朗。

未来展望:重新定义互联网内容使用规则

当被问及这一行动是否源于信念时,Prince回应道:"很少有像这样有机会帮助思考像互联网这样庞大而重要的组织或机构的未来商业模式的机会。当我们这样做时,我认为我们都应该思考我们从过去的互联网中学到了什么好的方面,又学到了什么坏的方面。"

这场行动的成败将取决于Google如何回应。理想的结果是Google允许内容可用于搜索但不用于AI摘要。无论长期愿景如何,无论这一变化是由Cloudflare的Content Signals Policy压力还是其他驱动力促成,大多数人都认为这将是一个良好的开端。

这场冲突的深层意义在于,它挑战了科技巨头仅凭其在某一领域的市场支配地位就能主导全新领域的假设。随着互联网从链接经济向内容授权经济转变,新的赢家和输家可能出现,而且可能与前一范式中的不同。

无论个人动机如何,大多数人似乎都认同一个观点:Google不应仅仅因为之前在搜索引擎领域建立了主导地位,就能在未来的答案引擎驱动的网络范式中也占据主导地位。

这场由robots.txt文件引发的革命,可能只是互联网内容生态变革的开始。随着技术发展和法律争议的持续,我们有理由期待一个更加公平、可持续的互联网内容使用新秩序的诞生。