在数字化时代,互联网的基本规则正在经历一场静默但深刻的变革。Cloudflare,这家支撑着全球近20%网站的网络基础设施巨头,正在通过一项看似技术性的举措——大规模更新robots.txt文件——向Google在AI内容获取领域的绝对优势发起挑战。这场看似低调的技术调整,实则可能成为重塑整个互联网内容生态的关键转折点。
技术背后的商业战争
Cloudflare最新推出的"内容信号政策"(Content Signals Policy)绝非简单的技术升级,而是一场精心策划的商业战略。这项政策允许网站管理员明确指定其内容是否可用于搜索索引、AI输入或AI训练,从而打破了长期以来Google将传统搜索爬取和AI内容使用捆绑在一起的做法。
"几乎每一个理性的AI公司都在说,如果竞争环境公平,我们愿意为内容付费,"Cloudflare CEO Matthew Prince在接受采访时表示。"问题在于,他们都害怕Google。如果Google能免费获取内容而他们却必须付费,他们将永远处于 inherent disadvantage(固有劣势)。"
这种担忧并非空穴来风。自2023年以来,Google虽然提供了让网站管理员选择将其内容排除在其大型语言模型(如Gemini)训练之外的方法,但允许页面被Google搜索爬虫索引并显示在结果中,就意味着它们也将通过检索增强生成(RAG)过程被用于生成搜索结果页面顶部的AI摘要。
数据揭示的残酷现实
多项研究证实了内容创作者面临的严峻挑战。皮尤研究中心2025年7月的一项分析显示,当搜索结果页面顶部出现AI摘要时,用户点击链接的比例从15%骤降至8%。这意味着内容创作者的流量几乎减少了一半。
《华尔街日报》的报道进一步揭示了这一问题的严重性,引用了包括《纽约时报》和商业内幕在内的多家主要出版机构的内部流量数据,指出与AI摘要相关的网站流量普遍大幅下滑,导致裁员和战略调整。
"总体而言,从Google搜索到网站的总有机点击量在过去一年中相对稳定,"Google搜索主管Liz Reid在博客中写道。"关于大幅下降的报告往往基于有缺陷的方法论、孤立的例子或AI功能在搜索中推出之前发生的流量变化。"
然而,出版商们并不买账。Penske媒体公司(拥有《好莱坞报道》和《滚石》等品牌)于9月起诉Google,称其联盟链接收入在过去一年下降了三分之一多,这很大程度上归因于Google的摘要功能——在一个已经利润微薄的业务中,这是一个威胁性的缺口。
技术标准的重新定义
自1994年以来,robots.txt文件已成为网站与爬虫之间沟通的通用语言。它告诉爬虫哪些网站部分应该被爬取和索引,哪些应该被忽略。然而,传统的robots.txt只能指示爬虫是否可以访问内容,而不能说明可以如何使用内容。
Cloudflare的"内容信号政策"旨在改变这一现状。它引入了一种新的robots.txt格式,允许网站运营商明确选择是否同意以下用例:
- 搜索:建立搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘录)
- AI输入:将内容输入到一个或多个AI模型中(例如,检索增强生成、基础或其他实时获取内容以生成AI搜索答案)
- AI训练:训练或微调AI模型
Cloudflare已为其所有客户提供了设置这些值的快速路径,并已自动使用Cloudflare托管robots.txt功能的380万个域名的robots.txt文件进行更新,搜索默认为"是",AI训练为"否",AI输入留空表示中立立场。
法律战场的悄然布局
Cloudflare精心设计这一政策,使其看起来像服务协议,目的是在法律上向Google施压,迫使其改变将传统搜索爬虫和AI摘要捆绑的政策。
"毫无疑问,Google的法律团队正在审视这个政策,说'嗯,这是我们现在必须主动选择忽略的东西,'"Prince告诉我。
他进一步将此描述为努力让一家他认为是历史上"主要是积极行为者"和"网络赞助商"的公司回归正轨。
"在Google内部,存在一场斗争,有人说我们应该改变我们的做法,"他解释道。"而另一些人则说,不行,这会放弃我们的固有优势,我们拥有互联网上所有内容的神圣权利。"
在这场辩论中,律师在Google拥有重要影响力,因此Cloudflare试图设计工具,"使它非常清楚,如果他们要遵循这些站点,存在明确的许可。如果他们不遵循,这将给他们带来风险。"
互联网未来的范式转变
要理解Cloudflare此举的深远意义,我们需要认识到互联网基本运作规则正在经历的范式转变。从数字出版早期开始,推荐流量在某种程度上一直是网络经济的支柱。内容可以免费提供给人类读者和爬虫,网络应用的标准允许信息追溯到其来源,并为该来源提供变现内容以维持自身的机会。
然而,随着RAG内容摘要的普及,旧系统似乎正在失效。Cloudflare和其他参与者正在尝试更新这些规范,以反映当前的现实。
Cloudflare有投资于网络整体健康的动机,但也有其他战略考量。该公司一直在与Google竞争对手Bing合作开发工具,帮助客户在网站上处理RAG,并尝试建立一个市场,让网站能够向爬虫收取抓取费用,尽管其最终形式仍不明朗。
"很少有机会让你有机会帮助思考像互联网这样庞大而重要的组织的未来商业模式,"Prince在被直接询问这是否源于信念时表示。"当我们这样做时,我认为我们都应该思考我们从过去互联网中学到了什么好的东西,从过去互联网中学到了什么坏的东西。"
平衡创新与公平的新标准
这场互联网基础设施革命的核心在于寻求创新与公平之间的平衡。一方面,AI技术的发展需要大量高质量内容作为训练数据和生成基础;另一方面,内容创作者需要获得合理的回报以维持创作。
Cloudflare的举措代表了一种可能的解决方案:允许内容在传统搜索中被索引和使用,但同时限制其在AI摘要和训练中的使用。这种"选择性允许