在数字世界的幕后,一场悄无声息的革命正在上演。Cloudflare,这家支撑着全球近20%网络基础设施的公司,正在采取前所未有的行动,挑战搜索引擎巨头Google在AI时代的内容获取方式。这场行动的核心,是数百万网站的robots.txt文件——这些曾经默默无闻的文本文件,如今成为了网络内容所有者捍卫自身权益的武器。
背景冲突:AI摘要与传统网络经济的碰撞
自2023年以来,Google为其大型语言模型(如Gemini)提供了一种方式,让网站管理员可以选择将其内容排除在AI训练之外。然而,允许Google搜索爬虫抓取并展示页面内容,就意味着必须接受这些内容将通过检索增强生成(RAG)过程,在搜索结果顶部生成AI摘要。
这种做法与其他主要搜索引擎爬虫形成鲜明对比,使Google成为行业中的异类。从发布新闻的网站到生产研究报告的投资银行,众多网站管理员对此深感不满。
皮尤研究中心2025年7月的一项研究分析了900名美国成年人的数据,发现AI摘要使网站推荐链接的点击率几乎减半。具体而言,在带有AI摘要的搜索结果页面,用户点击链接的比例仅为8%,而没有这些摘要的搜索引擎结果页面则为15%。
《华尔街日报》援引包括《纽约时报》和Business Insider在内的众多主要出版机构的内部流量数据报道称,出版商的网站流量普遍大幅下滑,他们认为这与Google的AI摘要直接相关,导致裁员和战略调整。
Cloudflare的反击:Content Signals Policy
面对这一局面,Cloudflare在9月24日宣布了其Content Signals Policy,利用公司在市场中的影响力改变网络爬虫使用内容的方式。这一举措涉及更新数百万网站的robots.txt文件。
自1994年以来,网站开始在域名根目录放置名为"robots.txt"的文件,向自动化网络爬虫指示域名中哪些部分应该被抓取和索引,哪些应该被忽略。多年来,这一标准几乎成为普遍规范;遵守它一直是Google网络爬虫操作的关键部分。
传统上,robots.txt仅包含标记为"允许"或"不允许"的域名路径列表。从技术上讲,它不可强制执行,但它成为了一个有效的诚信系统,因为它对网站所有者和爬虫所有者都有优势:网站所有者可以出于各种商业原因规定访问权限,同时帮助爬虫避免处理不相关的数据。
然而,robots.txt仅告诉爬虫它们是否可以完全访问某些内容,而不告诉它们可以如何使用这些内容。例如,Google支持禁止"Google-Extended"代理,以阻止寻找内容用于训练未来Gemini大语言模型的爬虫——但引入这一规则不会影响Google在2023年推出Google-Extended之前所做的训练,也不会阻止用于RAG和AI摘要的爬取。
Cloudflare的Content Signals Policy倡议是一个新提出的robots.txt格式,旨在解决这一问题。它允许网站操作员选择是否同意以下用例:
- 搜索:构建搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘录)。搜索不包括提供AI生成的搜索摘要。
- AI输入:将内容输入到一个或多个AI模型中(例如,检索增强生成、基础或其他实时获取内容以生成AI搜索答案)。
- AI训练:训练或微调AI模型。
Cloudflare已为其所有客户提供了快速路径,以便根据具体情况设置这些值。此外,它已经自动更新了380万个使用Cloudflare托管robots.txt功能的域名的robots.txt文件,其中搜索默认为"是",AI训练为"否",AI输入为空,表示中性立场。
法律博弈:一场精心设计的策略
Cloudflare特意将Content Signals Policy设计得看起来像服务协议条款,其明确目标是向Google施加法律压力,迫使其改变将传统搜索爬虫和AI摘要捆绑的政策。
"毫无疑问,Google的法律团队正在审视这一点,说'嗯,现在我们必须选择性地忽略网络上相当大的一部分',"Prince告诉我。
他进一步将此描述为一项努力,旨在让一家他历来认为是'基本上是良好行为者'和'网络赞助商'的公司回归正轨。
"在Google内部,存在一场争论,有人说我们应该改变我们的做法,"他解释道。"而另一些人说,不,这会让我们放弃固有优势,我们有权拥有互联网上所有的内容。"
在这场辩论中,律师在Google有影响力,因此Cloudflare试图设计工具,"使Google非常清楚,如果他们要遵循这些网站中的任何一条,就存在明确的许可协议。如果他们不遵守,这会给他们带来风险。"
未来的网络范式:一场正在重塑的格局
只有像Cloudflare这样规模的公司才能采取这样的行动并希望产生影响。如果只有少数网站做出这一改变,Google将更容易忽视它,或者更糟糕的是,它可能完全停止抓取这些网站以避免问题。由于Cloudflare与数百万网站纠缠在一起,Google如果不这样做,将实质性地影响搜索体验的质量。
Cloudflare对网络的整体健康有着既得利益,但也有其他战略考量。该公司一直在与Google竞争对手微软旗下的Bing合作开发工具,帮助客户网站实现RAG,并试验了一个市场,为网站提供向爬虫收费的方式,尽管这可能采取的最终形式仍不清楚。
我直接询问Prince这是否源于信念。"机会很少出现,让你有机会帮助思考像互联网这样规模庞大且重要的组织或机构的未来更好的商业模式,"他说。"当我们这样做时,我认为我们都应该思考我们从过去互联网中学到了什么好的东西,以及学到了什么坏的东西。"
重要的是,我们尚不知道网络未来的商业模式将是什么样子。Cloudflare自己有一些想法。其他人也提出了新的标准、市场策略。将有赢家和输家,而这些赢家和输家并不总是我们在前一范式中所看到的相同。
大多数人似乎都同意,无论他们的个人激励如何,Google都不应该仅仅因为它在搜索引擎驱动的时代确立了主导地位,就在未来的答案引擎驱动的网络范式中获得优势。
对于这个新的robots.txt标准,成功看起来像是Google允许内容在搜索中可用,但在AI摘要中不可用。无论长期愿景是什么,以及这是否是因为Cloudflare通过Content Signals Policy施加的压力或其他驱动力,大多数人同意这将是一个良好的开端。
这场由Cloudflare领导的反击不仅仅是对Google的挑战,更是对整个网络经济模式的一次重新思考。随着AI技术的快速发展,内容创作者、网站所有者和科技巨头之间的关系正在经历前所未有的变革。Content Signals Policy可能是这场变革的第一步,它为网络内容的使用建立了一个更清晰、更公平的框架,让创作者能够更好地控制自己的内容如何被使用,以及如何从中获得回报。
结语:网络新秩序的曙光
这场关于AI爬虫规则的斗争远未结束。Google是否会屈服于压力,调整其AI摘要策略?其他科技巨头将如何应对这一变化?网络内容生态将如何重新平衡?这些问题都需要时间来回答。
然而,Cloudflare的行动已经为这场讨论设定了新的议程。它表明,即使是科技巨头也无法忽视内容创作者和网站所有者的声音,特别是在这些声音来自支撑整个网络基础设施的关键参与者时。
随着Content Signals Policy的推广,我们可能会看到一个更加平衡的网络生态系统,其中内容的价值得到尊重,创作者的权利得到保障,而AI技术的发展也建立在更加公平和可持续的基础上。这不仅是技术标准的进步,更是网络治理理念的一次重要飞跃,预示着一个更加开放、公平、创新的网络未来正在向我们走来。