robots.txt变革:Cloudflare如何挑战Google的AI内容霸权

3

Cloudflare CEO Matthew Prince

互联网基础设施公司Cloudflare最近的一项举措可能引发整个网络生态的重大变革。该公司更新了数百万网站的robots.txt文件,试图迫使Google改变其抓取网站内容以支持AI产品和运营的方式。这一被称为"内容信号政策"(Content Signals Policy)的举措,标志着互联网内容经济模式可能正在迎来一次重要的转折点。

自2023年以来,Google已经提供了让网站管理员选择退出其大型语言模型(如Gemini)训练内容的方式。然而,允许页面被Google搜索爬虫索引并显示在搜索结果中,就意味着接受这些内容也将通过检索增强生成(RAG)的过程被用于生成搜索结果顶部的AI概览。这与许多其他爬虫的做法不同,使Google在主要参与者中成为一个特例。

这一点让从发布新闻报道的新闻网站到产生研究报告的投资银行等广泛的网站管理员感到不满。皮尤研究中心7月份的一项研究分析了美国900名成年人的数据,发现AI概览将推荐链接减少了近一半。具体来说,用户在有AI概览的页面上点击链接的几率只有8%,而没有这些概览的搜索引擎结果页面的点击率为15%。

《华尔街日报》的一篇报道引用了广泛的消息来源——包括《纽约时报》和《商业内幕》等众多主要出版物的内部流量指标——描述了整个行业网站流量的急剧下降,这些出版商表示这与AI概览有关,导致裁员和战略转变。

今年8月,Google搜索负责人Liz Reid对有关搜索中链接点击量减少的研究和出版商报告的有效性和适用性提出质疑。她在博客中写道:"总体而言,从Google搜索到网站的总有机点击量同比相对稳定,"并继续说,关于大幅下降的报告"通常基于有缺陷的方法、孤立的例子或在搜索中推出AI功能之前发生的流量变化"。

出版商们并不信服。拥有《好莱坞报道者》和《滚石》等品牌的Penske Media Corporation在9月就AI概览起诉了Google。该诉讼称,在过去一年中,联盟链接收入下降了三分之一以上,很大程度上归因于Google的概览——在一个本已利润微薄的行业中,这是一个威胁性的短缺。

Penske的诉讼特别指出,由于Google将传统搜索引擎索引和RAG使用捆绑在一起,该公司别无选择,只能允许Google继续总结其文章,因为完全切断Google搜索推荐在经济上是致命的。

自数字出版最早的日子以来,推荐链接一直以某种方式充当网络经济的主干。内容可以免费提供给人类读者和爬虫,并且整个网络都应用了规范,允许信息追溯到其来源,并给该来源机会将其内容货币化以维持自身运营。

今天,随着通过RAG的内容摘要变得更加普遍,人们恐慌地认为旧系统不再有效,Cloudflare与其他参与者一起,正在尝试更新这些规范以反映当前现实。

Cloudflare于9月24日宣布的内容信号政策是利用公司有影响力的市场地位来改变网络爬虫如何使用内容的努力。它涉及更新数百万网站的robots.txt文件。

自1994年以来,网站开始在域根放置一个名为"robots.txt"的文件,以向自动网络爬虫指示域的哪些部分应该被爬取和索引,哪些应该被忽略。多年来,这一标准变得几乎普遍;尊重它一直是Google网络爬虫运作的关键部分。

历史上,robots.txt只包含一个路径列表,这些路径被标记为"允许"或"不允许"。它在技术上不可强制执行,但它成为了一个有效的诚信系统,因为网站和爬虫的所有者都有优势:网站所有者可以出于各种业务原因规定访问权限,它帮助爬虫避免处理不相关的数据。

但robots.txt只告诉爬虫他们是否可以访问某些内容;它并不告诉他们可以用它做什么。例如,Google支持禁止"Google-Extended"代理作为阻止寻找用于训练其Gemini大型语言模型未来版本的内容的爬虫的路径——尽管引入该规则对Google在2023年推出Google-Extended之前所做的训练没有任何作用,并且它不会停止为RAG和AI概览进行的爬取。

内容信号政策倡议是robots.txt的一种新提出的格式,旨在做到这一点。它允许网站运营商选择同意或不同意以下用例,如政策中所述:

  • search:构建搜索索引并提供搜索结果(例如,返回您网站内容的超链接和简短摘录)。搜索不包括提供AI生成的搜索摘要。
  • ai-input:将内容输入一个或多个AI模型(例如,检索增强生成、接地或实时获取内容用于生成AI搜索答案)。
  • ai-train:训练或微调AI模型。

Cloudflare已为其所有客户提供了快速设置这些值的路径。此外,它已自动更新了已经使用Cloudflare管理的robots.txt功能的380万个域的robots.txt,其中搜索默认为是,ai-train为否,ai-input为空白,表示中立立场。

Cloudflare明确表示,通过使其看起来有点像服务条款协议,其目标是对Google施加法律压力,以改变其将传统搜索爬虫和AI概览捆绑在一起的政策。

"毫无疑问,Google的法律团队正在看着这个说,'嗯,现在我们必须主动选择忽略网络上很大一部分的内容,'"Prince告诉我。

他进一步将此描述为努力让一家他所说的历史上"很大程度上是一个好行为者"和"网络的赞助者"的公司回到做正确事情的轨道上。

"在Google内部,有一场斗争,有人说我们应该改变我们这样做的方式,"他解释道。"还有其他人说,不,这放弃了我们固有的优势,我们对互联网上的所有内容都有上帝赋予的权利。"

在这场辩论中,律师在Google有影响力,所以Cloudflare试图设计工具"使得非常清楚,如果他们要遵循任何这些网站,就有一个明确的许可证。如果他们不遵循,就会给他们带来风险,"Prince说。

要像这样有希望产生影响,需要Cloudflare这样规模的公司。如果只有几个网站做出这种改变,Google会更容易忽略它,或者更糟糕的是,它可以简单地停止爬取它们以避免问题。由于Cloudflare与数百万网站纠缠在一起,Google不能在不实质影响搜索体验质量的情况下这样做。

Cloudflare对网络的总体健康有着既得利益,但也有其他战略考虑在起作用。该公司一直在开发工具,协助在客户网站上进行RAG,与Microsoft拥有的Google竞争对手Bing合作,并且已经试验了一个市场,为网站提供向爬虫收取抓取网站用于AI费用的方法,尽管最终可能采取什么形式仍不清楚。

我直接问Prince这是否出于信念。"很少有机会出现,你可以帮助思考像互联网这样庞大和重要的组织或机构的未来更好的商业模式,"他说。"在我们这样做的时候,我认为我们都应该思考我们从过去互联网中学到了什么是好的,从过去互联网中学到了什么是坏的。"

重要的是要承认,我们还不知道网络的未来商业模式会是什么样子。Cloudflare本身有想法。其他人也提出了新的标准、市场和策略。会有赢家和输家,而这些赢家和输家不总是我们在前一个范式中看到的赢家和输家。

无论他们的个人动机如何,大多数人似乎都同意,Google不应该仅仅因为它以前在搜索引擎驱动的网络范式中确立了主导地位,就在未来的答案引擎驱动的网络范式中占据上风。

对于robots.txt的这个新标准,成功看起来像是Google允许内容在搜索中可用,但不在AI概览中可用。无论长期愿景是什么,无论是因为Cloudflare的内容信号政策的压力还是其他驱动力,大多数人都认为这将是一个良好的开端。