Cloudflare掀起网络基础设施革命:重塑Google AI爬取规则

2

在数字世界的隐秘角落,一场静默的革命正在上演。Cloudflare,这家支撑着全球近20%网络基础设施的公司,正在通过一项看似技术性实则具有深远影响的举措,向科技巨头Google发起挑战。这场围绕AI内容爬取规则之争,不仅关乎商业利益,更可能重塑整个互联网的未来格局。

背景冲突:AI摘要与传统网络经济的矛盾

自2023年以来,Google为其大型语言模型如Gemini提供了内容选择退出的机制。然而,允许Google爬虫索引网页并显示在搜索结果中,意味着内容所有者必须接受这些内容被用于通过检索增强生成(RAG)技术在结果页面顶部生成AI摘要。

这一做法与其他主要科技公司的政策形成鲜明对比,成为Google的独特之处。从新闻网站发布新闻报道到投资银行制作研究报告,这一政策引发了广泛的网站管理员不满。

数据揭示的流量危机

皮尤研究中心2025年7月的一项研究分析了美国900名成年人的数据,发现AI摘要功能将网站推荐链接的点击率几乎减半。具体而言,在显示AI摘要的搜索结果页面,用户仅点击链接8%的时间,而没有这些摘要的搜索引擎结果页面则为15%。

《华尔街日报》援引包括《纽约时报》和《商业内幕》在内的多家主要出版物的内部流量数据报道称,出版商网站流量出现了行业性暴跌,这些出版商表示这与AI摘要直接相关,导致裁员和战略调整。

Cloudflare的反击:内容信号政策

面对这一危机,Cloudflare于9月24日宣布了其"内容信号政策",试图利用其市场影响力改变网络爬虫使用内容的方式。这一举措涉及更新数百万网站的robots.txt文件。

robots.txt的演变与局限

自1994年以来,网站开始在域名根目录放置名为"robots.txt"的文件,向自动化网络爬虫指示域名中哪些部分应该被爬取和索引,哪些应该被忽略。这一标准几乎普及,遵守它一直是Google网络爬虫操作的关键部分。

传统上,robots.txt仅包含标记为"允许"或"不允许"的路径列表。从技术上讲它不可执行,但它成为了一个有效的诚信系统,因为它对网站所有者和爬虫所有者都有优势:网站所有者可以出于各种商业原因规定访问权限,同时帮助爬虫避免处理不相关的数据。

然而,robots.txt只告诉爬虫它们是否可以完全访问某些内容,而不告诉它们可以将其用于什么目的。例如,Google支持禁止"Google-Extended"代理作为阻止爬虫寻找内容以训练其Gemini大型语言模型未来版本的路径——但引入此规则并不能解决Google在2023年推出Google-Extended之前进行的训练,也不能停止RAG和AI摘要的爬取。

创新解决方案

Cloudflare的"内容信号政策"是一个新提议的robots.txt格式,旨在解决这一局限。它允许网站操作员选择同意或不同意以下用例:

  • 搜索:构建搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘录)。搜索不包括提供AI生成的搜索摘要。
  • AI输入:将内容输入到一个或多个AI模型中(例如,检索增强生成、基础化或为生成式AI搜索答案实时获取内容)。
  • AI训练:训练或微调AI模型。

Cloudflare为其客户提供了快速路径,可根据具体情况设置这些值。此外,它已经自动更新了380万个已使用Cloudflare托管robots.txt功能的域名的robots.txt文件,其中搜索默认为"是",AI训练为"否",AI输入留空,表示中立立场。

法律博弈:条款协议式的威慑

Cloudflare刻意将这一政策设计得类似于服务条款协议,其明确目标是向Google施加法律压力,迫使其改变将传统搜索爬虫和AI摘要捆绑的政策。

"毫无疑问,Google的法律团队正在审视这一举措,说'哈,这是我们现在必须积极选择忽略的网页的重要部分,'"Cloudflare首席执行官Matthew Prince告诉我。

他进一步将此描述为努力让一家他认为是历史上' largely a good actor'(很大程度上是良好参与者)和'web patron'(网络赞助商)的公司回到正确轨道。

"在Google内部,存在一场争论,有人说我们应该改变我们的做法,"他解释道。"而另一些人说,不,这会放弃我们的固有优势,我们对互联网上的所有内容有着神授的权利。"

在这一辩论中,律师在Google有影响力,因此Cloudflare试图设计工具,"使它非常清楚,如果他们要遵循这些网站中的任何一个,就存在明确的许可证。如果他们不遵循,这将给他们带来风险,"Prince说。

未来展望:网络新范式的可能性

只有像Cloudflare这样规模的公司才能做这样的事情并希望产生影响。如果只有少数网站做出这一改变,Google将更容易忽视它,或者更糟糕的是,它可能完全停止爬取这些网站以避免问题。由于Cloudflare与数百万网站紧密相连,Google如果不这样做,将实质性地影响搜索体验的质量。

Cloudflare对网络的整体健康有着既得利益,但其中也有其他战略考量。该公司一直在与Google竞争对手微软拥有的Bing合作,开发工具帮助客户网站进行RAG,并尝试建立一个市场,为网站提供向爬虫收取爬取费用的方式,尽管这最终可能采取什么形式仍不清楚。

当我直接询问Prince这是否源于信念时,他说:"很少有这样的机会出现,你可以帮助思考像互联网这样庞大且重要的组织或机构的未来更好的商业模式。当我们这样做时,我认为我们都应该思考我们从互联网过去学到了什么好的方面,以及学到了什么坏的方面。"

商业模式的重新思考

重要的是,我们目前还不清楚网络未来的商业模式将是什么样子。Cloudflare本身有自己的想法。其他人也提出了新的标准、市场策略。将有赢家和输家,而这些赢家和输家并不总是我们在前一范式中所看到的那样。

无论个人激励如何,大多数人似乎都同意的是,在未来的答案引擎驱动的网络范式中,Google不应该仅仅因为它之前在搜索引擎驱动的范式中确立了主导地位而继续占据主导地位。

对于这一新的robots.txt标准,成功看起来像是Google允许内容在搜索中可用,但在AI摘要中不可用。无论长期愿景如何,以及这是否因为Cloudflare通过内容信号政策施加的压力或其他驱动力而发生,大多数人同意这将是一个良好的开端。

行业影响与连锁反应

Cloudflare的举措已经在整个行业产生了连锁反应。出版商、内容创作者和技术专家都在重新思考他们在数字生态系统中的角色和权利。

出版商的困境与应对

出版商正面临一个两难选择:接受AI摘要带来的流量减少,或完全切断与Google的关系,这同样可能是财务上的灾难。正如Penske媒体公司在9月对Google提起的诉讼中所指出的,由于Google将传统搜索引擎索引和RAG使用捆绑在一起,该公司别无选择,只能允许Google继续总结其文章,因为完全切断Google搜索推荐将是财务上的致命打击。

自数字出版早期以来,推荐在某种程度上一直是网络经济的支柱。内容可以免费提供给人类读者和爬虫,网络应用的标准允许信息追溯到其来源,并给该来源提供机会将其内容货币化以维持自身生存。

今天,随着RAG通过内容摘要变得更加普遍,人们恐慌地认为旧系统不再有效,Cloudflare正试图更新这些标准以反映当前的现实。

技术社区的分化

技术社区对这一问题的反应也呈现出分化态势。一方面,有人认为AI技术应该能够访问所有可用数据以实现最佳效果;另一方面,内容创作者和网站所有者则主张对其创作拥有更多控制权和补偿权。

这种分化不仅反映了不同的利益考量,也反映了关于互联网本质和未来的根本性哲学分歧。互联网应该是一个开放获取的知识库,还是应该尊重内容创作者的权利并确保他们能够从其劳动中获得公平回报?

结论:走向更平衡的网络生态系统

Cloudflare的"内容信号政策"代表了网络基础设施提供商在AI时代重新平衡权力关系的尝试。这场静默的革命可能不会立即改变现状,但它确实为行业设定了一个新的议程,迫使所有参与者重新思考他们在数字生态系统中的角色和责任。

无论最终结果如何,这场围绕AI内容爬取的辩论都标志着互联网的一个重要转折点。随着AI技术继续发展和整合到我们的数字体验中,我们需要建立新的规范和机制,确保创新与公平能够共存,让所有参与者都能从互联网的繁荣中受益。

未来几年,我们将看到这场博弈如何展开,以及它将如何塑造我们与数字内容互动的方式。无论谁在这场斗争中胜出,重要的是我们能够建立一个更加平衡、可持续的网络生态系统,既能促进创新,又能尊重创作者的权利。