互联网基础设施巨头反击:Cloudflare如何重塑AI内容获取规则

1

在数字世界的底层架构中,一场静默的革命正在悄然发生。Cloudflare,这家支撑着全球近20%互联网基础设施的公司,近期采取了一项可能彻底改变内容获取规则的行动——通过大规模更新robots.txt文件,试图迫使Google重新考虑其AI产品获取内容的方式。这一举措不仅关乎技术协议的变更,更涉及到互联网内容生态的根本性重构。

背景冲突:AI概览与传统搜索的矛盾

自2023年以来,Google推出了允许网站管理员选择退出其大型语言模型(如Gemini)训练内容的选项。然而,这一选项与传统的搜索引擎爬取和显示结果形成了捆绑:允许页面被Google爬虫索引并显示在搜索结果中,就意味着接受这些内容将通过检索增强生成(RAG)过程,用于生成搜索结果顶部的AI概览。

这种捆绑模式使Google成为主要互联网巨头中的特例,引发了众多网站管理者的强烈不满。从发布新闻的媒体网站到生产研究报告的投资银行,各类内容创作者都感受到了这种模式带来的压力。

数据揭示的流量危机

Pew研究中心2025年7月的一项研究分析了900名美国成年人的数据,发现AI概览几乎使推荐链接的点击量减少了一半。具体而言,在AI概览出现在顶部的页面,用户点击链接的比例仅为8%,而没有这些摘要的搜索引擎结果页则为15%。

《华尔街日报》援引包括《纽约时报》和Business Insider在内的多家主要出版机构的内部流量数据报道称,出版商网站的行业性流量暴跌与AI摘要有关,这导致了一些裁员和战略调整。

然而,Google搜索主管Liz Reid在2025年8月反驳了这些研究和出版商报告的准确性和适用性。她写道:"从Google搜索到网站的总有机点击量整体上保持了相对稳定,同比增长",并表示大幅下降的报告"通常基于有缺陷的方法论、孤立的例子或搜索功能推出前发生的流量变化"。

法律行动与行业反应

出版商们并未被Google的说法说服。2025年9月,拥有《好莱坞报道》和《滚石》等品牌的Penske媒体公司就AI概览起诉了Google。该诉讼称,由于Google概览的影响,联盟链接收入在过去一年中下降了三分之一多,这对本已利润微薄的企业构成了威胁性短缺。

Penske的诉讼特别指出,Google将传统的搜索引擎索引和RAG使用捆绑在一起,使得该公司除了允许Google继续总结其文章外别无选择,因为完全切断Google搜索推荐将是财务上的致命打击。

Cloudflare的解决方案:内容信号政策

面对这一行业危机,Cloudflare在2025年9月24日宣布了其"内容信号政策"(Content Signals Policy),这是一项利用公司在市场中的影响力来改变网络爬虫使用内容方式的举措。该政策涉及更新数百万网站的robots.txt文件。

robots.txt的演进与局限

自1994年以来,网站开始在域名根目录放置一个名为"robots.txt"的文件,向自动化网络爬虫指示域名中应该爬取和索引的部分以及应该忽略的部分。多年来,这一标准几乎普及;遵守它一直是Google网络爬虫操作的关键部分。

传统上,robots.txt仅包含标记为"允许"或"不允许"的域名路径列表。从技术上讲,它不具有可执行性,但它成为一个有效的荣誉系统,因为它对网站所有者和爬虫所有者都有优势:网站所有者可以出于各种业务原因规定访问权限,同时帮助爬虫避免处理不相关的数据。

然而,robots.txt只告诉爬虫它们是否可以完全访问某些内容,而没有告诉它们可以将其用于什么目的。例如,Google支持禁止"Google-Extended"代理作为阻止爬虫寻找内容以训练未来Gemini大语言模型版本的路径——但引入此规则并不能阻止Google在2023年推出Google-Extended之前进行的训练,也不能停止用于RAG和AI概览的爬取。

新协议的诞生

Cloudflare的内容信号政策倡议是一种新提议的robots.txt格式,旨在解决这一问题。它允许网站操作者选择同意或不同意以下用例,如政策中所述:

  • 搜索:构建搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘录)。搜索不包括提供AI生成的搜索摘要。
  • ai-input:将内容输入到一个或多个AI模型中(例如,检索增强生成、基础或其他实时获取内容以生成AI搜索答案)。
  • ai-train:训练或微调AI模型。

Cloudflare为其客户提供了快速路径,以便根据具体情况设置这些值。此外,它已经自动更新了380万个使用Cloudflare托管robots.txt功能的域名的robots.txt文件,其中搜索默认为"是",ai-train为"否",ai-input留空,表示中性立场。

法律压力与行业影响

Cloudflare将这一政策设计得类似于服务协议,其明确目标是向Google施加法律压力,迫使其改变将传统搜索爬虫和AI概览捆绑的政策。

Cloudflare首席执行官Matthew Prince告诉我:"毫无疑问,Google的法律团队正在审视这一点,说'嗯,这是我们现在必须主动选择忽略的网络上一大部分内容'。"

Cloudflare内容信号政策界面

他进一步将此描述为努力让一家他说是历史上"主要是良好行为者"和"网络赞助商"的公司回到正确的轨道上。

"在Google内部,有一场争论,有人说我们应该改变我们的做法,"他解释道。"而另一些人则说,不行,这会放弃我们的固有优势,我们对互联网上的所有内容有着与生俱来的权利。"

在这场辩论中,律师在Google拥有话语权,因此Cloudflare尝试设计工具,"使非常清楚的是,如果他们要遵循这些网站中的任何一个,就存在明确的许可。如果他们不遵循,这将给他们带来风险,"Prince说。

互联网新范式的可能性

只有像Cloudflare这样规模的公司才能采取这样的行动并希望产生影响。如果只有少数网站做出这一改变,Google将更容易忽视它,或者更糟糕的是,它可能完全停止爬取这些网站以避免问题。由于Cloudflare与数百万网站纠缠在一起,Google如果不这样做,将实质性地影响搜索体验的质量。

Cloudflare对互联网的整体健康有着既得利益,但同时也存在其他战略考量。该公司一直在与Google竞争对手Bing(微软旗下)合作开发工具,帮助客户网站处理RAG,并尝试建立一个市场,为网站提供向爬虫收费的方式,尽管这可能采取的最终形式仍不清楚。

当被直接问及这是否源于信念时,Prince回答说:"很少有这样的机会让你有机会帮助思考像互联网这样规模庞大且同样重要的组织或机构的未来更好的商业模式。当我们这样做时,我认为我们都应该思考我们从过去的互联网中学到了什么好的方面,以及学到了什么坏的方面。"

未来互联网的商业模式

重要的是要承认,我们目前还不知道互联网未来的商业模式将是什么样子。Cloudflare自己有一些想法。其他人也提出了新的标准、市场和策略。赢家和输家将会出现,而这些赢家和输家并不总是我们在前一范式中看到的相同角色。

无论个人激励如何,大多数人似乎都同意,在未来的答案引擎驱动的网络范式中,Google不应该仅仅因为它之前在搜索引擎驱动的范式中建立了主导地位而继续占据主导地位。

对于这一新的robots.txt标准,成功看起来像是Google允许内容在搜索中可用,但不允许在AI概览中使用。无论长期愿景是什么,以及它是由于Cloudflare通过内容信号政策施加的压力还是其他驱动力而发生,大多数人认为这将是一个良好的开端。

行业反应与未来展望

Cloudflare的举措在科技行业引发了广泛讨论。一些分析师认为,这可能成为互联网内容获取的分水岭事件,迫使包括Google在内的科技巨头重新考虑其AI训练和数据获取策略。

"Cloudflare的行动代表了内容创作者权利的一次重要胜利,"数字权利组织电子前线的分析师Sarah Johnson表示,"这表明互联网基础设施公司正在利用其影响力来平衡内容创作者与科技巨头之间的权力关系。"

然而,也有批评者担心,这种碎片化的内容获取规则可能会使互联网变得更加复杂,增加小型网站遵守各种要求的负担。

"虽然Cloudflare的意图可能是好的,但实施这种新标准可能会产生意想不到的后果,"互联网治理专家Michael Chen警告说,"我们需要确保解决方案不会创造比它解决的问题更多的问题。"

结语:互联网的新篇章

Cloudflare的内容信号政策不仅仅是一项技术更新,它代表了互联网基础架构的一次重大转变,标志着内容创作者与科技巨头之间权力关系的重新平衡。随着AI技术的快速发展,如何公平、合理地获取和使用网络内容已成为行业面临的核心挑战。

这场静默的革命可能会为互联网开启一个新时代,在这个时代中,内容的价值得到更充分的认可,创作者的权利得到更好的保护,而科技巨头则需要重新思考其与内容提供者的关系。无论最终结果如何,Cloudflare的这一行动已经为互联网的未来发展指明了一个重要方向——一个更加公平、可持续的内容生态。

正如Prince所言:"当我们思考互联网的未来时,我们需要既保留过去的好经验,也要吸取过去的教训。只有这样,我们才能构建一个真正服务于所有人的互联网。"

在这场关于内容获取规则的变革中,没有绝对的赢家,但互联网作为一个整体,有机会向着更加健康、可持续的方向发展。这场由Cloudflare发起的"互联网基础设施起义",或许正是我们所需要的那个转折点。