Web基础设施巨头反击:Cloudflare如何重塑互联网内容使用规则

1

在数字世界的深处,一场静默的革命正在上演。Cloudflare,这家支撑着全球近20%网络流量的基础设施巨头,正通过一项看似技术性的举措——更新数百万网站的robots.txt文件——向Google发起挑战。这场由Cloudflare CEO Matthew Prince领导的行动,不仅关乎技术规范,更触及互联网内容使用规则的根本性变革。

背景冲突:AI时代的内容获取困境

自2023年以来,Google为网站管理员提供了一种选择,使其内容可以不被用于训练Google的大型语言模型,如Gemini。然而,允许Google的搜索爬虫索引页面并显示在搜索结果中,意味着必须接受这些内容将通过检索增强生成(RAG)过程,在搜索结果页面顶部生成AI摘要。

这种做法与其他主要搜索引擎形成鲜明对比,使Google成为行业中的异类。从发布新闻的媒体网站到产生研究报告的投资银行,这一政策引发了广泛不满。

数据揭示的流量危机

皮尤研究中心2025年7月的一项研究分析了美国900名成年人的数据,发现AI概述使网站推荐流量几乎减少了一半。具体而言,在带有AI概述的搜索结果页面,用户点击链接的比例仅为8%,而没有这些摘要的搜索引擎结果页面这一比例为15%。

《华尔街日报》援引包括《纽约时报》和Business Insider在内的多家主要出版物的内部流量指标报道称,出版商网站流量出现全面下滑,出版商表示这与AI摘要直接相关,导致裁员和战略调整。

出版商的反击

2025年9月,拥有《好莱坞报道》和《滚石》等品牌的Penske Media Corporation因AI概述起诉Google。诉讼称,过去一年联盟链接收入下降了三分之一以上,这在已经利润微薄的业务中构成了威胁性缺口。

Penske的诉讼特别指出,Google将传统搜索引擎索引和RAG使用捆绑在一起,使得出版商别无选择,只能允许Google继续总结其文章,因为完全切断Google搜索推荐将在财务上致命。

Cloudflare的解决方案:内容信号政策

2025年9月24日,Cloudflare宣布了其"内容信号政策",旨在利用其市场影响力改变网络爬虫使用内容的方式。该政策涉及更新数百万网站的robots.txt文件。

robots.txt的演进

自1994年以来,网站开始在域名根目录放置名为"robots.txt"的文件,向自动化网络爬虫指示域名中应该被爬取和索引的部分以及应该被忽略的部分。多年来,这一标准几乎普及;遵守它一直是Google网络爬虫运作的关键部分。

传统上,robots.txt仅包含标记为"允许"或"不允许"的域名路径列表。从技术上讲,它不可执行,但它成为了一个有效的诚信系统,因为它对网站所有者和爬虫所有者都有优势:网站所有者可以出于各种业务原因规定访问权限,并帮助爬虫避免处理不相关的数据。

然而,robots.txt只告诉爬虫它们是否可以完全访问某些内容,而不告诉它们可以将其用于什么目的。例如,Google支持禁止"Google-Extended"代理作为阻止寻找内容训练未来Gemini大型语言模型版本的爬虫的途径——尽管引入此规则不会影响Google在2023年推出Google-Extended之前所做的训练,也不会停止用于RAG和AI概述的爬取。

内容信号政策的创新

Cloudflare的内容信号政策倡议是robots.txt的一种新提议格式,旨在解决这一限制。它允许网站操作员选择同意或不同意以下用例:

  • 搜索:构建搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘录)。搜索不包括提供AI生成的搜索摘要。
  • ai-input:将内容输入到一个或多个AI模型中(例如,检索增强生成、基础或其他实时获取内容以生成AI搜索答案)。
  • ai-train:训练或微调AI模型。

Cloudflare为其客户提供了快速路径,以便单独设置这些值。此外,它已经自动更新了使用Cloudflare托管robots.txt功能的380万个域名的robots.txt文件,默认搜索为"是",ai-train为"否",ai-input为空,表示中立立场。

法律威胁:将技术规范转化为商业压力

Cloudflare特意将内容信号政策设计得类似于服务条款协议,其明确目标是向Google施加法律压力,迫使其改变将传统搜索爬虫和AI概述捆绑在一起的政策。

"毫无疑问,Google的法律团队正在审视这一点,说'嗯,这是我们现在必须主动选择忽略的网络上相当大的一部分',"Prince告诉我。

他进一步将此描述为一项努力,旨在让一家他认为是历史上'基本上是良好参与者'和'网络赞助商'的公司回到正确的轨道上。

"在Google内部,存在一场争论,有人说我们应该改变我们的做法,"他解释道。"而另一些人说,不,那会放弃我们的固有优势,我们对互联网上的所有内容拥有天赋的权利。"

在这种争论中,律师在Google有影响力,因此Cloudflare试图设计工具,"如果他们要遵循这些网站中的任何一条,就非常清楚地表明存在明确的许可证。如果他们不遵循,这将给他们带来风险,"Prince说。

未来互联网生态的范式转变

只有像Cloudflare这样规模的公司才能采取此类行动并希望产生影响。如果只有少数网站做出这一改变,Google将更容易忽略它,或者更糟,它可以完全停止爬取这些网站以避免问题。由于Cloudflare与数百万网站紧密相连,Google如果不这样做,将实质性地影响搜索体验的质量。

Cloudflare对网络的整体健康有既得利益,但也有其他战略考量。该公司一直在与Google竞争对手Bing(微软旗下)合作开发工具,帮助客户网站处理RAG,并尝试建立一个市场,让网站可以向爬虫收取抓取AI内容的费用,尽管这最终可能采取何种形式仍不清楚。

当我直接询问Prince这是否源于信念时,他说:"很少有像这样帮助思考像互联网这样庞大且重要的组织或机构未来更好商业模式的机会出现。当我们这样做时,我认为我们都应该思考我们从过去的互联网中学到了什么好的,又学到了什么坏的。"

新的互联网经济模式

重要的是要承认,我们尚不知道互联网未来的商业模式将是什么样子。Cloudflare有自己的想法,其他人也提出了新的标准、市场和策略。将有赢家和输家,而这些赢家和输家并不总是我们在前一个范式中所看到的那样。

无论个人激励如何,大多数人似乎都同意,在一个由答案引擎驱动的未来网络范式中,Google不应该仅仅因为它之前在搜索引擎驱动的范式中确立了主导地位而占据主导地位。

对于这个新的robots.txt标准,成功看起来像是Google允许内容在搜索中可用,但在AI概述中不可用。无论长期愿景如何,以及这是否因为Cloudflare通过内容信号政策施加的压力或其他驱动力而发生,大多数人同意这将是一个良好的开端。

行业影响与未来展望

Cloudflare的举措正在整个行业引发连锁反应。从出版商到技术公司,各方都在重新思考内容获取和使用的规则。这场运动不仅关乎技术规范,更关乎互联网经济的基础。

从免费到付费的内容获取模式

传统上,互联网上的内容可以免费提供给人类读者和爬虫,网络规范允许信息追溯到其来源,并给该来源提供机会将其内容货币化以维持自身运营。然而,随着RAG内容摘要变得越来越普遍,旧系统似乎不再有效。

"几乎每一个合理的AI公司都在说,听,如果这是一个公平的竞争环境,我们很乐意为内容付费,"Prince说。"问题是,它们都害怕Google,因为如果Google免费获得内容,而它们都必须付费,它们将永远处于固有劣势。"

新的生态系统参与者

这场变革催生了一系列新的生态系统参与者,从内容市场到爬虫管理工具。Cloudflare本身就在探索这些可能性,与Bing合作开发RAG工具,并测试一个让网站可以向爬虫收费的市场。

这些创新表明,互联网正在从"免费获取一切"的模式向"有条件使用"的模式转变,这种转变可能会重塑整个数字经济的格局。

结论:互联网规则的重新定义

Cloudflare的行动代表了互联网基础设施公司对内容获取规则的一次重大干预。通过更新robots.txt文件,Cloudflare不仅试图改变Google的行为,更是在重新定义互联网内容使用的规范。

这场运动的结果将影响我们所有人,无论我们是内容创作者、消费者还是技术服务提供商。在一个AI越来越重要的世界里,我们需要找到平衡:既要促进创新,又要确保内容创作者得到公平补偿。

正如Prince所言,这是一个"帮助思考互联网未来更好商业模式"的机会。无论最终结果如何,这场关于内容使用规则的辩论都将塑造未来互联网的形态,影响数字经济的方方面面。