在互联网发展的历史长河中,很少有技术文件像robots.txt那样既简单又具有深远影响。这个自1994年以来存在的标准,如今正成为互联网巨头与内容提供商之间权力博弈的焦点。Cloudflare,这家支撑着全球近20%网络流量的基础设施公司,正在通过大规模更新网站的robots.txt文件,对Google的AI摘要功能发起前所未有的挑战。
背景冲突:AI摘要与传统互联网经济的碰撞
自2023年以来,Google为网站管理员提供了一种选择,使其内容可以退出用于训练Google的大型语言模型(如Gemini)。然而,允许Google的搜索爬虫索引页面并显示在搜索结果中,意味着必须接受这些内容将通过检索增强生成(RAG)过程,在搜索结果页面顶部生成AI摘要。
这一做法与其他主要搜索引擎爬虫形成鲜明对比,使Google成为行业中的异类。从发布新闻的网站到制作研究报告的投资银行,这一做法引起了众多网站管理员的强烈不满。
皮尤研究中心2025年7月的一项研究分析了美国900名成年人的数据,发现AI摘要使网站推荐链接数量几乎减少了一半。具体而言,在AI摘要出现在顶部的搜索结果页面,用户点击链接的比例仅为8%,而没有这些摘要的搜索引擎结果页面则为15%。
《华尔街日报》的一份报告援引包括《纽约时报》和《商业内幕》在内的众多主要出版机构的内部流量数据,描述了这些出版商网站流量的大幅下滑,并将此归因于AI摘要,导致裁员和战略调整。
Cloudflare的反击:内容信号政策的诞生
面对这一行业困境,Cloudflare于9月24日宣布了其"内容信号政策",旨在利用其市场影响力改变网络爬虫使用内容的方式。这一举措涉及更新数百万网站的robots.txt文件。
传统robots.txt文件仅指示爬虫可以访问或忽略哪些路径,并不说明爬虫如何使用这些内容。例如,Google支持禁止"Google-Extended"代理作为阻止寻找内容训练未来Gemini版本爬虫的方法,但引入此规则不会影响Google在2023年推出Google-Extended之前进行的训练,也不会停止用于RAG和AI摘要的爬取。
Cloudflare的倡议是一种新提出的robots.txt格式,旨在解决这一局限。它允许网站操作员选择是否同意以下用例:
- 搜索:构建搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘要)。搜索不包括提供AI生成的搜索摘要。
- AI输入:将内容输入到一个或多个AI模型(例如,检索增强生成、基础化或其他实时获取内容用于生成AI搜索答案)。
- AI训练:训练或微调AI模型。
Cloudflare已为其客户提供了快速路径,可根据具体情况设置这些值。此外,它已自动更新了380万个已使用Cloudflare托管robots.txt功能的域名的robots.txt文件,其中搜索默认为"是",AI训练默认为"否",AI输入留空,表示中性立场。
法律战场的博弈
Cloudflare特意将这一政策设计得类似于服务条款协议,其明确目标是在法律上向Google施压,迫使其改变将传统搜索爬虫和AI摘要捆绑的政策。
"毫无疑问,Google的法律团队正在审视这一举措,说'嗯,现在我们不得不主动选择忽略网络上相当大的一部分',"Cloudflare CEO Matthew Prince在接受采访时表示。
他进一步将此描述为促使一家历史上'在很大程度上是良好行为体'和'网络赞助商'的公司回归正确做法的努力。
"在Google内部,存在一场争论,有人说我们应该改变我们的做法,"他解释道。"而另一些人则说,不行,这会放弃我们的固有优势,我们对互联网上的所有内容拥有天然权利。"
在这种争论中,律师在Google有影响力,因此Cloudflare尝试设计工具,"使它非常清楚,如果他们要遵循这些网站中的任何一个,就存在明确的许可。如果他们不遵循,这将给他们带来风险。"
互联网范式的转变
只有像Cloudflare这样规模的公司才能采取此类行动并希望产生影响。如果只有少数网站做出这一改变,Google将更容易忽视它,或者更糟的是,它可以简单地停止爬取这些网站以避免问题。由于Cloudflare与数百万网站紧密相连,Google如果不这样做,将实质性地影响搜索体验的质量。
Cloudflare对互联网的总体健康有着既得利益,但同时也存在其他战略考量。该公司一直在与Google竞争对手、微软旗下的Bing合作开发工具,帮助客户网站处理RAG,并尝试建立了一个市场,为网站提供向爬虫收费的方式,尽管这最终可能采取何种形式仍不清楚。
当被直接问及这是否源于信念时,Prince表示:"很少有这样的机会让你有机会帮助思考像互联网这样庞大且重要的组织或机构的未来更好的商业模式。当我们这样做时,我认为我们都应该思考我们从过去的互联网中学到了什么好的方面,又学到了什么坏的方面。"
未来展望:重新定义互联网内容经济
重要的是要承认,我们尚不知道互联网的未来商业模式将是什么样子。Cloudflare本身有自己的想法。其他人也提出了新的标准、市场和策略。将有赢家和输家,而这些并不总是我们在先前范式中看到的相同的赢家和输家。
无论个人利益如何,大多数人似乎都认同一个观点:Google不应该仅仅因为它在搜索引擎驱动的互联网中已确立的主导地位,就在未来的答案引擎驱动的互联网范式中继续占据主导地位。
对于这个新的robots.txt标准,成功看起来像是Google允许内容可用于搜索但不用于AI摘要。无论长期愿景如何,以及这是否因为Cloudflare通过内容信号政策施加的压力或其他驱动力而发生,大多数人一致认为,这将是一个良好的开端。
这场由Cloudflare领导的互联网基础设施 revolt,可能标志着互联网内容经济新时代的开始。在这个时代,内容创作者对其作品的用途拥有更大的发言权,而科技巨头则不能再无偿利用他人的内容来训练其AI模型。这不仅关乎商业利益,更关乎互联网的基本价值观和可持续发展模式。