Cloudflare掀起网络基础设施革命:重塑Google AI爬虫规则

1

在数字世界的暗流涌动中,一场悄然进行的革命正在改变着互联网的基本规则。Cloudflare,这家服务于全球近20%网络流量的基础设施巨头,正通过一项看似技术性的举措——更新数百万网站的robots.txt文件——向Google的AI爬虫策略发起挑战。这场行动不仅关乎技术标准的演进,更触及互联网内容创作的经济基础和未来格局。

背景冲突:AI摘要与内容创作者的生存危机

自2023年以来,Google推出了允许网站管理员选择退出其大型语言模型(如Gemini)训练内容的选项。然而,这一机制存在一个根本性缺陷:允许Google爬虫索引页面并显示在搜索结果中,意味着必须接受通过检索增强生成(RAG)过程在结果页面顶部生成AI摘要的事实。

这种"捆绑式"做法使Google成为主要科技巨头中的异类,引发了从新闻网站到投资银行等各类网站管理者的强烈不满。Pew Research Center在2025年7月的一项研究分析了900名美国成年人的数据,发现AI概览将推荐链接的点击率几乎削减了一半——在有AI概览的页面上,用户点击链接的比例仅为8%,而没有这些摘要的搜索引擎结果页则为15%。

《华尔街日报》援引包括《纽约时报》和Business Insider在内的多家主要出版机构的内部流量数据报道称,与AI摘要相关的网站流量行业性暴跌,导致裁员和战略调整。这些数据共同描绘了一个严峻的现实:传统的内容创作商业模式正面临前所未有的挑战。

出版商的反击:从诉讼到集体行动

面对流量和收入的急剧下降,出版商们采取了多种形式的反击。2025年9月,拥有《好莱坞报道》和《滚石》等品牌的Penske Media Corporation对Google提起了诉讼,指控其AI概览导致联盟链接收入在过去一年下降了三分之一以上,这对本已利润微薄的企业构成了威胁。

诉讼特别指出,Google将传统搜索引擎索引和RAG使用捆绑在一起,使得出版商别无选择,只能允许Google继续总结其文章,因为完全切断Google搜索推荐将是财务上的致命打击。

"从数字出版初期开始,推荐网络一直以某种方式充当了网络经济的支柱,"行业分析师指出,"内容可以免费提供给人类读者和爬虫,网络规范被应用于整个网络,以允许信息追溯到其来源,并为该来源提供货币化内容以维持自身生存的机会。如今,随着RAG内容摘要变得越来越普遍,人们恐慌地认为旧系统不再有效。"

Cloudflare的解决方案:内容信号政策

在众多参与者中,Cloudflare以其独特的市场地位提出了一个规模宏大的解决方案。2025年9月24日,Cloudflare宣布了其"内容信号政策"(Content Signals Policy),旨在利用公司的影响力改变网络爬虫使用内容的方式。

这一举措涉及更新数百万网站的robots.txt文件。自1994年以来,网站开始在域名根目录放置名为"robots.txt"的文件,向自动化网络爬虫指示域名中哪些部分应该被爬取和索引,哪些应该被忽略。这一标准多年来几乎普遍适用;遵守它一直是Google网络爬虫如何运作的关键部分。

然而,传统的robots.txt只告诉爬虫它们是否可以完全访问某些内容,而不告诉它们可以将其用于什么目的。例如,Google支持禁止"Google-Extended"代理作为阻止爬取用于训练未来Gemini大语言模型内容的路径,但引入此规则并不能解决Google在2023年推出Google-Extended之前所做的训练,也不能停止用于RAG和AI概览的爬取。

Cloudflare的内容信号政策是一项新提议的robots.txt格式,旨在解决这一局限。它允许网站操作员选择是否同意以下用例:

  • 搜索:构建搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘录)。搜索不包括提供AI生成的搜索摘要。
  • AI输入:将内容输入到一个或多个AI模型中(例如,检索增强生成、基础或其他实时获取内容用于生成AI搜索答案)。
  • AI训练:训练或微调AI模型。

Cloudflare已为其所有客户提供了快速路径,用于根据具体情况设置这些值。此外,它已自动使用搜索默认为"是"、AI训练为"否"、AI输入为空白(表示中性立场)的设置,更新了已使用Cloudflare托管robots.txt功能的380万个域名的robots.txt文件。

法律战略:创造新的合规压力

Cloudflare故意将这一政策设计得类似于服务条款协议,其明确目标是对Google施加法律压力,迫使其改变将传统搜索爬虫和AI概览捆绑的政策。

"毫无疑问,Google的法律团队正在看着这个说,'嗯,现在这是我们必须在网络的显著部分主动选择忽略的东西',"Cloudflare CEO Matthew Prince表示。

他进一步将此描述为努力让一家他历来认为是'基本上是良好行为者'和'网络赞助商'的公司回到正确轨道上。

"在Google内部,存在一场争论,有人说我们应该改变我们的做法,"他解释道,"而另一些人说,不,那会放弃我们固有的优势,我们有权拥有互联网上的所有内容。"

在这场辩论中,律师在Google拥有话语权,因此Cloudflare尝试设计工具,"使非常清楚的是,如果他们要跟进这些网站中的任何一个,就存在明确的许可证。如果他们不遵守,这将给他们带来风险。"

行业影响:重新定义网络经济模式

Cloudflare的规模使其能够采取此类行动并希望产生影响。如果只有少数网站做出这一改变,Google将更容易忽视它,或者更糟,它可以完全停止爬取这些网站以避免问题。由于Cloudflare与数百万网站紧密相连,Google如果不这样做,将实质性地影响搜索体验的质量。

Cloudflare对网络的总体健康拥有既得利益,但也有其他战略考量。该公司一直在与Google竞争对手、微软旗下的Bing合作开发工具,帮助客户网站处理RAG,并尝试建立一个市场,为网站提供向爬虫收费的方式,尽管这最终可能采取何种形式仍不清楚。

"很少有这样的机会让你有机会帮助思考像互联网这样规模庞大且重要的组织或机构的未来更好的商业模式,"Prince在被直接询问这是否源于信念时表示,"当我们这样做时,我认为我们都应该思考我们从过去互联网中学到了什么好的东西,以及我们从过去互联网中学到了什么坏的东西。"

未来展望:网络范式的新篇章

我们尚不知道网络未来的商业模式将是什么样子。Cloudflare有自己的想法,其他人也提出了新的标准、市场策略。将有赢家和输家,而这些并不总是我们在先前范式中看到的相同的赢家和输家。

无论个人激励如何,大多数人似乎都同意,Google不应该仅仅因为它在搜索引擎驱动的范式中已建立的统治地位,就在未来的答案引擎驱动的网络范式中占据主导地位。

对于这一新的robots.txt标准,成功看起来像是Google允许内容在搜索中可用但在AI概览中不可用。无论长期愿景是什么,无论这是由于Cloudflare通过内容信号政策施加的压力还是其他驱动力所致,大多数人认为这将是一个良好的开端。

这场由Cloudflare发起的网络基础设施革命,正悄然重塑着互联网的基本规则。随着内容信号政策的实施,我们可能正在见证一个新时代的开始——在这个时代,内容创作者将拥有更多控制权,科技巨头必须重新考虑其对网络资源的获取方式。这不仅是一次技术标准的更新,更是对互联网经济基础的一次重新校准,将对未来十年的数字生态产生深远影响。