在数字世界的底层架构中,一场静默但影响深远的革命正在上演。Cloudflare,这家支撑着全球近20%网络流量的基础设施巨头,采取了一项大胆行动:更新数百万网站的robots.txt文件,以此向Google的AI概览功能(AI Overviews)发起挑战。这一被称为"内容信号政策"的举措,不仅代表了技术层面的变革,更象征着内容创作者与科技巨头之间权力关系的重新洗牌。
背景与起因:AI概览引发的内容经济危机
自2023年以来,Google推出了允许网站管理员选择退出其大型语言模型(如Gemini)训练内容的功能。然而,这一选择退出机制存在一个关键缺陷:允许Google爬虫索引并展示在搜索结果中的页面,必须接受这些内容通过检索增强生成(RAG)过程,在结果页面顶部生成AI概览。
这一做法与其他主要科技公司的政策形成鲜明对比,使Google成为行业中的异类。从发布新闻的媒体网站到生产研究报告的投资银行,各类网站管理员对此深感不满。
数据揭示的点击率危机
皮尤研究中心2025年7月的一项研究分析了900名美国成年人的数据,发现AI概览使网站推荐链接的点击率几乎减半。具体而言,在带有AI概览的搜索结果页面,用户点击链接的比例仅为8%,而没有这些摘要的搜索引擎结果页面点击率则为15%。
《华尔街日报》援引包括《纽约时报》和Business Insider在内的众多主要出版物的内部流量数据报道称,由于AI摘要导致的网站流量普遍大幅下滑,这直接导致了裁员和战略调整。
出版商的法律反击
面对收入锐减,出版商们开始采取法律行动。2025年9月,拥有《好莱坞报道》和《滚石》等品牌的Penske Media Corporation起诉Google的AI概览功能。该诉讼称,由于Google的概览功能,联盟链接收入在过去一年中下降了三分之一多,这对于本已利润微薄的企业来说是一个威胁性的缺口。
Penske的诉讼特别指出,Google将传统搜索引擎索引和RAG使用捆绑在一起,使得公司别无选择,只能继续允许Google对其文章进行摘要,因为完全切断Google搜索推荐将在财务上是致命的。
技术层面:robots.txt的革新与挑战
自1994年以来,网站开始在域名根目录放置名为"robots.txt"的文件,向自动化网络爬虫指示域名的哪些部分应该被爬取和索引,哪些应该被忽略。这一标准多年来几乎普遍适用;遵守它一直是Google网络爬虫操作的关键部分。
传统robots.txt的局限性
传统的robots.txt仅包含标记为"允许"或"不允许"的路径列表。从技术上讲,它不可执行,但它成为了一个有效的荣誉系统,因为网站所有者和爬虫所有者都能从中获益:网站所有者可以出于各种商业原因规定访问权限,同时帮助爬虫避免处理不相关的数据。
然而,robots.txt只告诉爬虫它们是否可以完全访问某些内容,而没有说明它们可以将其用于什么目的。例如,Google支持禁止"Google-Extended"代理作为阻止爬取用于训练未来Gemini大语言模型内容的路径,但引入此规则并不能阻止Google在2023年推出Google-Extended之前所做的训练,也无法阻止RAG和AI概览的爬取。
Cloudflare的内容信号政策
Cloudflare于9月24日宣布的内容信号政策(Content Signals Policy)是一项利用公司有影响力的市场地位来改变网络爬虫使用内容方式的努力。它涉及更新数百万网站的robots.txt文件。
这一倡议是新提出的robots.txt格式,旨在解决上述局限性。它允许网站操作员选择同意或不同意以下用例:
- 搜索:构建搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘录)。搜索不包括提供AI生成的搜索摘要。
- AI输入:将内容输入到一个或多个AI模型中(例如,检索增强生成、基础或其他实时获取内容用于生成AI搜索答案)。
- AI训练:训练或微调AI模型。
Cloudflare已为其所有客户提供了快速路径,以便在个别基础上设置这些值。此外,它已自动更新了使用Cloudflare托管robots.txt功能的380万个域名的robots.txt文件,其中搜索默认为"是",AI训练为"否",AI输入为空白,表示中性立场。
法律战略:创造新的合规压力
Cloudflare特意将这一政策设计得类似于服务条款协议,其明确目标是在法律上向Google施压,迫使其改变将传统搜索爬虫和AI概览捆绑在一起的政策。
Cloudflare首席执行官马修·普林斯(Matthew Prince)表示:"毫无疑问,Google的法律团队正在审视这一点,说'嗯,这是我们现在必须主动选择忽略的网络上一大部分内容'。"
他将此描述为让一家他历来认为是"主要良好行为者"和"网络赞助商"的公司回归正确做法的努力。
"在Google内部,存在一场争论,有人说我们应该改变我们的做法,"他解释道。"而另一些人则说,不,那会放弃我们的固有优势,我们对互联网上的所有内容拥有天赋的权利。"
在这种争论中,律师在Google有影响力,因此Cloudflare试图设计工具,"使非常清楚的是,如果他们要遵循这些站点中的任何一个,就存在明确的许可证。如果他们不遵循,这将给他们带来风险。"
行业影响:重塑网络权力结构
要使这样的举措产生任何希望的影响,需要Cloudflare这样规模的公司。如果只有少数网站做出这一改变,Google将更容易忽视它,或者更糟,它可以停止爬取这些网站以避免问题。由于Cloudflare与数百万网站纠缠在一起,Google如果不显著影响搜索体验质量,就无法做到这一点。
Cloudflare对网络的整体健康有既得利益,但其中也涉及其他战略考量。该公司一直在与Google竞争对手必应(Bing)合作开发工具,帮助客户网站处理RAG,并尝试建立一个市场,为网站提供向爬虫收取AI爬取费用的方式,尽管这可能采取的最终形式仍不清楚。
普林斯被直接问及这是否源于信念。"很少有这样的机会出现,让你有机会帮助思考像互联网这样规模和重要性的组织或机构的未来更好的商业模式,"他说。"当我们这样做时,我认为我们都应该思考我们从过去的互联网中学到了什么好的方面,以及我们学到了什么坏的方面。"
未来展望:网络新范式与内容经济重构
我们尚不知道网络未来的商业模式将是什么样子。Cloudflare本身有自己的想法。其他人也提出了新标准、市场和策略。将有赢家和输家,而这些赢家和输家并不总是我们在前一范式中所看到的那样。
无论个人激励如何,大多数人似乎都认同的一点是:Google不应该仅仅因为它在搜索引擎驱动的互联网中确立了主导地位,就在未来的答案引擎驱动的网络范式中继续占据主导地位。
对于这一新的robots.txt标准,成功看起来像是Google允许内容在搜索中可用,但在AI概览中不可用。无论长期愿景如何,以及这是否因为Cloudflare通过内容信号政策施加的压力或其他驱动力而发生,大多数人认为这将是一个良好的开端。
这场由Cloudflare发起的robots.txt革命,不仅仅是对GoogleAI主导地位的挑战,更是对整个互联网内容经济基础的重塑。随着AI技术的快速发展,内容创作与使用的边界正在被重新定义,而这场静默的技术革命,或许正是互联网从"免费内容"时代向"价值交换"时代转变的催化剂。
结语:技术标准背后的权力博弈
在看似中立的robots.txt文件背后,是一场关于互联网未来控制权的激烈博弈。Cloudflare的行动表明,当技术标准成为权力博弈的战场时,即使是底层基础设施也可以成为挑战科技巨头的有力工具。
这场革命的影响远不止于技术层面。它关乎内容创作者的生存权,关乎互联网经济的可持续性,更关乎数字时代信息流动的公平性。随着越来越多的基础设施提供商加入这场变革,我们或许正在见证互联网历史上一个重要转折点的到来——一个从"赢家通吃"向"多方共赢"转变的新时代。









