Web基础设施巨头反抗:Cloudflare如何挑战Google AI爬取模式

2

在数字世界的地下,一场悄无声息的革命正在上演。Cloudflare,这家支撑着全球近20%网络基础设施的公司,正在通过一项看似技术性的举措——大规模更新robots.txt文件——来挑战科技巨头Google在AI时代的内容获取模式。

背景冲突:AI摘要与内容经济的危机

自2023年以来,Google推出了允许网站管理员选择退出其大型语言模型(如Gemini)训练内容的选项。然而,这种选择退出机制存在一个根本性缺陷:允许Google爬虫索引页面并显示在搜索结果中,就等于接受了这些内容将通过一种称为检索增强生成(RAG)的过程,被用来生成搜索结果顶部的AI摘要。

这种做法与大多数其他网络爬虫不同,使Google成为主要玩家中的异类。从发布新闻的网站到制作研究报告的投资银行,这一变化引发了广泛的担忧。

数据揭示的流量危机

皮尤研究中心2025年7月的一项分析显示,AI摘要使网站推荐链接的点击率几乎减半。具体而言,在有AI摘要的搜索结果页面,用户点击链接的比例仅为8%,而没有这些摘要的页面则为15%。《华尔街日报》援引包括《纽约时报》和Business Insider在内的多家主要出版商的内部流量数据,报道了与AI摘要相关的网站流量全面下滑,导致裁员和战略调整。

尽管Google搜索负责人Liz Reid辩称,从Google搜索到网站的总有机点击量年际间保持相对稳定,出版商们显然未被说服。Penske媒体公司(拥有《好莱坞报道》和《滚石》等品牌)于9月对Google提起了诉讼,指控由于Google的摘要,其联盟链接收入在过去一年下降了三分之一多,这在已经利润微薄的业务中构成了威胁性短缺。

Cloudflare的反击:内容信号政策

面对这一困境,Cloudflare于9月24日宣布了其"内容信号政策",旨在利用其市场影响力改变网络爬虫使用内容的方式。这一举措涉及更新数百万网站的robots.txt文件。

robots.txt的演变与局限

自1994年以来,网站开始在域名根目录放置名为"robots.txt"的文件,向自动化网络爬虫指示域名中哪些部分应该被爬取和索引,哪些应该被忽略。这一标准多年来变得近乎普遍;遵守它一直是Google网络爬虫运作的关键部分。

传统上,robots.txt仅包含标记为"允许"或"不允许"的域名路径列表。虽然在技术上不可强制执行,但它成为一项有效的荣誉系统,因为它对网站所有者和爬虫所有者都有优势:网站所有者可以出于各种业务原因规定访问权限,同时帮助爬虫避免处理不相关的数据。

然而,robots.txt只告诉爬虫它们是否可以访问某些内容,并不告诉它们可以将其用于什么目的。例如,Google支持禁止"Google-Extended"代理作为阻止爬取内容以训练未来Gemini版本大型语言模型的路径,但引入此规则不会影响Google在2023年推出Google-Extended之前进行的训练,也不会停止用于RAG和AI摘要的爬取。

新的robots.txt格式

Cloudflare的"内容信号政策"提议robots.txt的新格式,旨在解决这一局限。它允许网站操作员选择是否同意以下用例:

  • search:构建搜索索引和提供搜索结果(例如,返回您网站内容的超链接和简短摘录)。搜索不包括提供AI生成的搜索摘要。
  • ai-input:将内容输入到一个或多个AI模型中(例如,检索增强生成、基础或其他实时获取内容以生成AI搜索答案)。
  • ai-train:训练或微调AI模型。

Cloudflare已为其客户提供了快速路径,以便根据具体情况设置这些值。此外,它已自动使用Cloudflare托管robots.txt功能的380万个域名的robots.txt文件进行了更新,其中搜索默认为"是",ai-train为"否",ai-input为空,表示中立立场。

法律博弈:制造Google的合规风险

Cloudflare明确表示,这一举措的目标是向Google施压,迫使其改变将传统搜索爬虫和AI摘要捆绑的政策。

"毫无疑问,Google的法律团队正在审视这一点,说'嗯,现在这是我们必须主动选择忽略网络上一大部分内容的事情',"Cloudflare首席执行官Matthew Prince表示。

Cloudflare首席执行官Matthew Prince

Prince进一步将此描述为努力让一家他历来认为是" largely a good actor"和"web patron"的公司回归正轨。

"在Google内部,存在一场争论,有人说我们应该改变我们的做法,"他解释道。"而另一些人说,不,这会放弃我们固有的优势,我们对互联网上的所有内容有着天赋的权利。"

在这场辩论中,律师在Google有影响力,因此Cloudflare试图设计工具,"非常清楚地表明,如果他们要遵循这些网站中的任何一个,都有明确的许可证存在。如果他们不遵循,这将给他们带来风险。"

互联网的未来范式

要像Cloudflare这样产生影响,需要其规模的公司。如果只有少数网站做出这一改变,Google会更容易忽视它,或者更糟,它可能完全停止爬取这些网站以避免问题。由于Cloudflare与数百万网站纠缠在一起,Google如果不这样做,将显著影响搜索体验的质量。

Cloudflare对互联网的整体健康有既得利益,但也有其他战略考量。该公司一直在与Google竞争对手Bing(微软旗下)合作开发工具,帮助客户网站实现RAG,并实验了一个市场,为网站提供向爬虫收取AI爬取费用的方式,尽管这最终可能采取什么形式尚不清楚。

当被直接问及这是否源于信念时,Prince表示:"机会很少出现,让你有机会帮助思考像互联网这样庞大而重要的组织或机构的未来更好的商业模式。当我们这样做时,我认为我们都应该思考,我们从过去的互联网中学到了哪些好的方面,又学到了哪些坏的方面。"

新的商业模式探索

我们尚不知道互联网的未来商业模式将是什么样子。Cloudflare有自己的想法,其他人也提出了新的标准、市场和策略。会有赢家和输家,而且这些赢家和输家并不总是我们在前一个范式中看到的那些。

大多数人似乎同意,无论他们的个人激励如何,Google不应仅仅因为之前在搜索引擎驱动的范式中确立了主导地位,就能在未来的答案引擎驱动的网络范式中脱颖而出。

对于这个新的robots.txt标准,成功看起来像是Google允许内容可用于搜索但不用于AI摘要。无论长期愿景如何,无论它是由于Cloudflare通过"内容信号政策"施加的压力还是其他驱动力而发生的,大多数人认为这将是一个良好的开端。

行业影响与未来展望

Cloudflare的举措反映了整个行业对AI时代内容价值重新评估的迫切需求。随着AI生成内容变得越来越普遍,传统的内容货币化模式正面临前所未有的挑战。

出版商的反击

除了Penske媒体公司的诉讼外,出版商们正在探索多种策略来应对AI摘要带来的流量下降:

  1. 法律途径:通过诉讼寻求补偿,如Penske媒体公司对Google提起的诉讼。
  2. 技术壁垒:利用robots.txt等技术手段限制爬取,如Cloudflare推动的"内容信号政策"。
  3. 市场创新:探索内容市场places,确保内容创作者因他们的作品获得公平补偿。
  4. 商业模式转型:从依赖搜索引擎流量转向订阅模式、会员制或其他直接收入来源。

技术巨头的博弈

这场冲突不仅仅是出版商与Google之间的战争,更是整个互联网生态系统内部力量重新平衡的表现。Microsoft通过Bing与Cloudflare合作,表明了在AI时代挑战Google主导地位的意愿。同时,其他技术公司也在寻找自己在这一新格局中的位置。

互联网标准的演进

Cloudflare的"内容信号政策"可能标志着互联网标准的一次重要演进。如果这一倡议获得广泛采用,它可能导致:

  1. 更精细的内容使用控制:网站所有者能够更精确地控制其内容如何被不同目的使用。
  2. 新的内容价值评估体系:基于内容对AI训练和生成的贡献程度建立新的价值评估机制。
  3. 更公平的互联网经济:确保内容创作者能够从AI驱动的互联网经济中获得公平份额。

结论:重塑互联网内容生态

Cloudflare通过"内容信号政策"发起的这场看似技术性的干预,实际上可能成为互联网内容生态系统的转折点。它不仅挑战了Google在AI时代的内容获取模式,也为整个行业提供了一个重新思考内容价值和使用方式的契机。

这场博弈的结果将影响互联网的未来走向:是继续由少数科技巨头主导内容分配,还是建立一个更加多元、公平的内容生态系统?无论最终结果如何,Cloudflare的举措已经表明,在AI时代,互联网基础设施的拥有者正在寻求更大的发言权,以确保网络的基本原则——开放、公平和互操作性——能够适应新的技术现实。

随着这场革命的深入,我们可以预见更多类似的创新和挑战,它们将共同塑造一个既尊重创作者权利又促进技术进步的互联网未来。