在数字世界的底层架构中,一场静默的革命正在悄然展开。Cloudflare,这家服务于全球近20%网络基础设施的公司,正在通过一项看似技术性的调整,重新定义AI时代的内容获取规则。这项被称为"内容信号政策"的举措,不仅是对Google AI内容抓取策略的直接挑战,更可能成为整个网络内容生态系统的转折点。
背景与起因:AI Overviews引发的行业震动
自2023年以来,Google推出的AI Overviews功能彻底改变了传统搜索结果的呈现方式。通过检索增强生成(RAG)技术,Google开始在搜索结果顶部提供AI生成的摘要,直接呈现给用户原本需要点击链接才能获取的信息。这一变化看似提升了用户体验,却引发了内容创作者和出版商的强烈不满。
据皮尤研究中心2025年7月的一项研究显示,当搜索结果中出现AI摘要时,用户点击链接的比例仅为8%,而没有AI摘要的搜索页面这一比例为15%。这意味着AI摘要几乎将网站流量削减了一半。《华尔街日报》的报道进一步指出,包括《纽约时报》和《商业内幕》在内的多家主流出版商都报告了网站流量的大幅下降,并将此归因于Google的AI摘要功能。
"几乎每一个理性的AI公司都在说,如果这是一个公平的竞争环境,我们很乐意为内容付费,"Cloudflare CEO Matthew Prince表示,"问题是他们都害怕Google,因为如果Google能免费获取内容而他们却必须付费,他们将永远处于 inherent 的劣势。"
技术革新:重新定义robots.txt标准
面对这一困境,Cloudflare于2024年9月24日推出了"内容信号政策",这是一项对传统robots.txt文件的革命性扩展。自1994年以来,robots.txt文件一直是网站管理员控制爬虫访问的基本工具,但它仅能指示爬虫是否可以访问内容,而不能规定内容的具体用途。
Cloudflare的新标准改变了这一现状。它允许网站管理员明确指定内容的三种不同用途:
- search:构建搜索索引并提供搜索结果(不包括AI生成的搜索摘要)
- ai-input:将内容输入到一个或多个AI模型(如检索增强生成、基础构建或其他实时内容获取)
- ai-train:训练或微调AI模型
这一创新使网站管理员能够精细控制内容的使用方式,而不仅仅是简单的允许或禁止访问。Cloudflare已自动更新其管理的380万个域名上的robots.txt文件,将搜索默认设为允许,ai-train默认设为禁止,而ai-input保持空白,表示中立立场。
法律与战略:Cloudflare的深思熟虑
Cloudflare的设计并非偶然,而是刻意将这一政策设计得类似服务条款,以增加法律压力。"不要误解,Google的法律团队正在审视这个变化,说'嗯,现在我们必须主动选择忽略网络上相当一部分内容',"Prince解释道。

Cloudflare特别将这一政策设计得类似于许可协议,明确表明如果Google继续抓取这些网站,就意味着接受了特定的使用条款。这种设计旨在创造法律风险,促使Google重新考虑其将传统搜索爬虫和AI摘要捆绑在一起的政策。
"Google内部存在一场争论,"Prince继续说道,"有人认为我们应该改变做法,而另一些人则说,这会让我们失去 inherent 的优势,我们对互联网上的所有内容有着与生俱来的权利。"
在这场争论中,律师的意见在Google内部具有重要影响力,因此Cloudflare设计了这些工具,"使Google非常清楚,如果他们要继续抓取这些网站,就必须遵循明确的许可协议,如果不遵守,将面临风险。"
行业影响:从流量危机到商业模式重构
这场变革的背景是整个数字出版行业面临的严峻挑战。自数字出版兴起以来,流量推荐一直是网络经济的支柱。内容可以免费提供给人类读者和爬虫,网络规范确保信息能够追溯到源头,使内容创作者有机会变现以维持运营。
然而,随着RAG技术的普及,旧系统似乎正在失效。Penske媒体公司(拥有《好莱坞报道》和《滚石》等品牌)于2024年9月起诉Google,称联盟链接收入在过去一年中下降了三分之一,很大程度上归因于Google的摘要功能。在已经利润微薄的行业中,这是一个威胁性的短缺。
Penske的诉讼特别指出,由于Google将传统搜索引擎索引和RAG用途捆绑在一起,该公司别无选择,只能允许Google继续总结其文章,因为完全切断Google搜索推荐将在财务上是致命的。
未来展望:网络生态系统的范式转变
Cloudflare的举措之所以具有影响力,正是因为其规模。如果只有少数网站做出这一改变,Google可以更容易地忽视,或者更糟糕的是,可以完全停止抓取这些网站以避免问题。但由于Cloudflare与数百万网站紧密相连,Google若这样做将严重影响搜索体验的质量。
Cloudflare对网络的整体健康有着既得利益,但也有其他战略考量。该公司一直在与微软旗下的Google竞争对手Bing合作开发工具,帮助客户网站处理RAG,并尝试建立一个市场,让网站能够向爬虫收取抓取费用用于AI训练,尽管这一市场的最终形式仍不明确。
"很少有这样的机会让你有机会帮助思考像互联网这样庞大而重要的机构或组织的未来商业模式,"Prince在被直接询问这是否源于信念时表示,"当我们这样做时,我认为我们都应该思考我们从过去的互联网中学到了什么好的方面,又学到了什么坏的方面。"
行业反应与潜在解决方案
这场变革并非孤例。除了Cloudflare的举措外,行业正在探索多种解决方案:
- 法律途径:出版商通过法律诉讼寻求补偿
- 市场机制:建立新的市场确保内容创作者获得报酬
- 技术标准:开发新的robots.txt扩展协议
- 商业模式创新:探索内容付费和API访问的新模式
然而,很少有公司拥有像Cloudflare这样的影响力。其产品和服务支撑着全球近20%的网络,因此在搜索结果页面或为大型语言模型提供燃料的网站中占有相当大的份额。
结论:AI时代的内容价值重估
无论最终结果如何,这场由Cloudflare发起的robots.txt革命都标志着互联网内容生态系统的重大转变。它迫使行业重新思考AI时代的内容价值、获取方式和分配机制。
成功的新标准可能使Google能够在搜索中提供内容,但不能在AI摘要中使用。无论长期愿景如何,无论是因为Cloudflare的"内容信号政策"压力还是其他驱动力,大多数人同意这将是一个良好的开端。
在AI驱动的答案引擎网络范式中,Google不应该仅仅因为它在搜索引擎驱动的范式中已建立的统治地位而继续占据主导地位。这场变革关乎公平竞争、内容创作者的生存权利,以及整个互联网生态系统的健康与可持续发展。
正如Prince所言:"我们应该思考我们从过去的互联网中学到了什么好的方面,又学到了什么坏的方面。"在AI时代,我们需要建立新的规范,确保互联网继续成为一个开放、创新和公平的生态系统,让内容创造者能够获得应有的回报,让技术进步能够与人类创造力的价值和谐共存。








