Cloudflare掀起网络基础设施革命：robots.txt如何重塑AI内容生态

在数字世界的底层架构中，一场静默的革命正在上演。Cloudflare，这家支撑着全球近20%网络流量的基础设施巨头，正通过一个看似微小的技术调整——robots.txt文件，向Google的AI帝国发起挑战。这场变革不仅关乎技术协议的更新，更触及互联网经济的根本规则和内容价值的重新定义。

背景冲突：AI摘要如何颠覆传统网络经济

自2023年以来，Google为其大型语言模型（如Gemini）提供了内容退出使用的选项，允许网站管理员选择不将其内容用于AI训练。然而，这种选择并非真正的自由——接受Google搜索爬虫索引页面，就意味着必须接受通过检索增强生成（RAG）技术，在搜索结果顶部生成AI摘要的现实。

这一做法与其他主要搜索引擎形成鲜明对比，使Google成为AI内容利用领域的异类。对于从新闻网站到投资银行等各类内容创作者而言，这已成为一个痛点。

数据揭示的流量危机

皮尤研究中心2025年7月的一项研究分析了900名美国成年人的数据，发现AI摘要使网站推荐流量几乎减半。具体而言，在顶部有AI摘要的搜索结果页面，用户点击链接的比例仅为8%，而没有摘要的页面则为15%。

《华尔街日报》援引《纽约时报》和Business Insider等多家主要出版机构的内部流量数据，描述了与AI摘要相关的网站流量行业性暴跌，导致裁员和战略调整。彭斯媒体公司（Penske Media Corporation）拥有《好莱坞报道》和《滚石》等品牌，于9月起诉Google，称其联盟链接收入在过去一年下降了三分之一多，主要归因于Google的摘要功能——这本就利润微薄的业务面临严重短缺。

Google搜索主管Liz Reid反驳了这些研究和出版商报告的准确性，声称"Google搜索到网站的总有机点击量多年来相对稳定"，并表示大幅下降的报告"往往基于有缺陷的方法论、孤立的例子或AI功能推出前发生的流量变化"。

Cloudflare的反击：内容信号政策

2025年9月24日，Cloudflare宣布推出"内容信号政策"（Content Signals Policy），利用其市场影响力改变网络爬虫使用内容的方式。这一举措涉及更新数百万网站的robots.txt文件，这是自1994年以来网站用来指示自动化爬虫哪些部分应该被爬取和索引的标准协议。

robots.txt的局限性

传统robots.txt仅告诉爬虫它们是否可以访问某些内容，而非它们可以如何使用这些内容。例如，Google支持禁止"Google-Extended"代理来阻止寻找内容训练Gemini未来版本的爬虫，但这一规则无法阻止Google在2023年推出Google-Extended之前已经完成的训练，也无法阻止RAG和AI摘要的爬取。

新协议的革命性意义

Cloudflare的新提议旨在解决这一局限，允许网站运营商选择是否同意以下用例：

搜索：构建搜索索引并提供搜索结果（不包括AI生成的搜索摘要）
ai-input：将内容输入一个或多个AI模型（如检索增强生成、基础或其他实时获取内容用于生成AI搜索答案）
ai-train：训练或微调AI模型

Cloudflare已为其客户提供了快速路径，可根据具体情况设置这些值。此外，它已自动更新使用Cloudflare托管robots.txt功能的380万个域名的robots.txt文件，默认设置为搜索允许、ai-train禁止、ai-input空白表示中立立场。

法律博弈：技术协议背后的战略布局

Cloudflare刻意将内容信号政策设计得类似服务条款协议，旨在向Google施加法律压力，迫使其改变传统搜索爬虫和AI摘要捆绑的政策。

"不要搞错了，Google的法律团队正在审视这个，说'哦，我们现在必须主动选择忽略网络中相当大的一部分'，"Cloudflare CEO Matthew Prince表示。他进一步将此描述为让Google这个"历史上一直是良好行为者"和"网络赞助者"回归正轨的努力。

"在Google内部，存在一场争论，有人说我们应该改变我们的做法，"他解释道，"而另一些人说，不，那会放弃我们的固有优势，我们拥有互联网上所有内容的神圣权利。"

在这场辩论中，律师在Google拥有话语权，因此Cloudflare试图设计工具，"使非常清楚，如果他们要遵循这些站点中的任何一个，存在明确的许可协议。如果他们不遵循，将给他们带来风险。"

市场力量：规模带来的战略优势

只有像Cloudflare这样规模的公司才能采取此类行动并希望产生影响。如果只有少数网站做出这一改变，Google将更容易忽视它，或者更糟，它可以停止爬取这些网站以避免问题。由于Cloudflare与数百万网站紧密相连，Google若这样做将实质性地影响搜索体验的质量。

Cloudflare对网络整体健康有着既得利益，但也有其他战略考量。该公司一直在与微软旗下的Google竞争对手Bing合作，开发工具帮助客户网站处理RAG，并尝试建立一个市场，让网站能够向爬虫收取AI抓取费用，尽管这一最终形式仍不明确。

当被直接问及这是否源于信念时，Prince表示："很少有像这样的机会出现，让你可以帮助思考像互联网这样庞大而重要的组织或机构的未来商业模式。当我们这样做时，我认为我们都应该思考我们从过去的互联网中学到了什么好的方面，以及什么坏的方面。"

未来网络范式：重新定义内容价值

我们尚不清楚网络未来的商业模式将是什么样子。Cloudflare有自己的想法，其他人也提出了新标准、市场策略。将有赢家和输家，而他们并不总是我们在前一范式中所看到的相同角色。

无论个人激励如何，大多数人似乎都认同：Google不应仅仅因为先前在搜索引擎驱动范式中的主导地位，就在未来的答案引擎驱动网络范式中占据优势。

对于这个新的robots.txt标准，成功看起来像是Google允许内容在搜索中可用，但在AI摘要中不可用。无论长期愿景如何，无论它是由于Cloudflare通过内容信号政策的压力还是其他驱动力而发生，大多数人同意这将是一个良好的开端。

这场由Cloudflare发起的robots.txt革命，不仅是技术协议的更新，更是对互联网经济基础的重塑。它挑战了Google利用搜索主导地位获取AI训练数据的模式，试图建立更公平的内容使用规则。随着这场变革的深入，我们可能会看到一个更加平衡的网络生态系统，内容创作者能够从其创作中获得应有的价值，而AI技术的发展也能建立在更可持续的基础之上。