AI“免费午餐”终结？Cloudflare“赛博菩萨”重塑内容变现

在数字内容创作领域，一场由AI技术驱动的变革正悄然上演。曾经，网络内容的获取仿佛一场“免费午餐”，AI巨头们凭借着强大的爬虫技术，肆意抓取互联网上的各类信息，用于训练其庞大的人工智能模型。然而，这种看似互惠的模式，实则隐藏着内容创作者与AI公司之间的利益失衡。如今，随着互联网基础设施巨头Cloudflare推出一项名为“Pay Per Crawl”的实验性产品和交易市场，这一局面或将被彻底改写。Cloudflare的这一举措，无疑给内容创作者带来了新的希望，也预示着一个全新的内容分发和变现模式的到来。

“Pay Per Crawl”的核心理念在于，让AI爬虫不再能够随意抓取网站内容，而是需要获得许可或支付费用。这一功能的推出，为网站内容创作者提供了一个自主选择的“开关”：他们可以选择允许AI爬虫自由访问，按次爬取收费，或者直接封锁访问。Cloudflare的创始人认为，内容是驱动AI引擎的关键燃料，因此，内容创作者直接获得报酬才是公平的。对于AI公司而言，这意味着它们将无法再像过去那样免费获取全网内容来训练模型。然而，这并非全无益处，因为通过明码标价付费，可以有效避免潜在的版权争议问题。Cloudflare的这一举措，能否真正缓解AI爬虫的肆意攻击？更重要的是，这家公司能否凭借其独特的地位，构建起一个全新的AI时代内容分发和变现模式？

在过去的几十年里，大多数网页都默认对外开放，允许搜索引擎爬取。谷歌、Bing等搜索引擎为网站带来了巨大的流量，而网站则通过广告或销售订阅等方式实现变现。这种模式在搜索时代形成了一种隐形的契约。然而，随着AI时代的到来，传统搜索流量急剧下降，使得这种契约关系变得越来越难以维持。AI公司将全网内容视为训练燃料，却几乎没有向内容创作者提供任何回报。当用户直接在AI聊天机器人中提问时，答案往往来源于对内容的总结，而不是指向数十个蓝色链接，这无疑减少了网站的流量来源。即使是像谷歌这样的搜索巨头，也在不断调整其策略。过去，它们提供网站链接列表；现在，它们在搜索页面推出了“人工智能概述”。据其报告显示，75%的查询用户无需点击任何链接即可获得解答。这意味着，传统的“内容换流量”模式已经失效。

Cloudflare在2025年7月发布的最新数据显示，谷歌的爬虫大约每6至7次抓取能够为网站带回1次点击，而OpenAI则是1500次抓取才能换来1次跳转。Anthropic的比例更加夸张，高达73300次换1次。这意味着，与传统搜索引擎相比，AI巨头们消耗了海量的网站内容，却没有提供相应的流量回报，这种失衡的局面使得许多内容生产者难以为继。Cloudflare的CEO Matthew Prince在一篇博文中指出：“有了OpenAI，网站流量获取难度比谷歌时代高出750倍，而有了Anthropic，难度更是高达3万倍。原因很简单：我们越来越不再消费原创内容，而是消费它们的衍生品。这不是一个公平的交易。”AI公司在爬取数据时并非没有付出代价，近年来，它们一直被指控“偷内容”来训练大模型，引发了全球范围内的版权诉讼潮。特别是纽约时报等新闻机构与OpenAI之间的诉讼，更是引发了广泛关注。正是基于这些问题，Cloudflare推出了“Pay Per Crawl”，旨在建立一个“按次付费爬取”的市场，以解决AI巨头们长期以来免费获取内容的问题。通过这一市场，网络内容可以从传统的“广告变现”模式转向“内容授权变现”，从而开辟全新的收入来源。无论是大型媒体还是小型博客，都能够在AI时代拥有议价权，并因其内容被AI使用而获得报酬。Cloudflare CEO甚至将“Pay Per Crawl”的推出日称为“内容的独立日”，以此强调其重要意义。

当然，美好的设想需要坚实的技术基础来支撑。Cloudflare作为一家提供CDN、DDoS防护、DNS、零信任安全等服务的互联网基础设施公司，在全球300多个城市部署了节点，承载了约20%的Web流量，这无疑为其充当“中介”提供了便利。“Pay Per Crawl”建立在其全球CDN网络的中间层，能够在访问请求到达源站之前识别和处理AI爬虫。网站管理员可以在Cloudflare后台设定三种模式：允许、收费、封锁。所有新加入Cloudflare的网站默认封锁AI爬虫，除非网站管理员主动允许。只有与Cloudflare建立合作关系的AI公司才能参与支付机制，否则将被封锁。如果AI爬虫向付费URL发起请求但尚未付费，Cloudflare将返回HTTP 402 Payment Required状态码——一个过去几乎无人使用、专门为“网络支付”预留的状态码。AI爬虫可以在请求中附带支付信息，以表示同意支付配置的价格。一旦价格匹配，系统将放行并返回200 OK状态码，同时自动结算。Cloudflare本身则充当交易的“收银台”，负责汇总账单和分发收益。更重要的是，这种机制并非简单的User-Agent欺骗可以绕过的。Cloudflare要求AI公司注册密钥，并使用数字签名来保证身份，从而防止“山寨爬虫”冒充合规者逃避支付。过去，robots.txt文件被放置在网站根目录下，用于告知搜索引擎的爬虫哪些页面可以抓取，哪些不可以。但它只是一种“礼貌建议”，许多AI爬虫根本不予理会。Cloudflare的方案改变了这一点，将现有的、依靠robots.txt的“软约束”变成了“硬闸门”。然而，据Cloudflare称，目前排名前10000的域名中，只有约37%拥有robots.txt文件。

要参与Cloudflare的爬取付费市场，爬取方和被爬取方都需要开设Cloudflare账户。截至目前，“Pay Per Crawl”仍处于内测阶段，仅有部分大型出版商参与，如BuzzFeed、《大西洋月刊》和《财富》等。Cloudflare还在持续公开征集有意向的内容创作者和抓取者。“我们预计按次付费模式将迎来显著发展。”Cloudflare官方表示。尽管目前仍处于初期阶段，但该公司对未来充满了设想。例如，出版商或其他机构可以针对不同内容类型收取不同费用，或者根据AI应用的用户数量进行动态定价，甚至可以根据训练、推理、搜索等不同领域引入更细粒度的定价策略。他们还认为，按次付费爬虫的真正潜力或许会在Agent智能代理的世界中显现。“如果智能代理付费墙能够完全以程序化的方式运作，会怎样？想象一下，你可以请你的深度研究助手帮你整理最新的癌症研究、法律简报，或者帮你找最好的餐厅——然后给这位智能代理一笔预算，用于获取最有用、最相关的内容。”Cloudflare表示，“以HTTP 402响应代码为基石的首个解决方案，将开启一个智能代理能够以程序化方式协商访问数字资源的未来。”

从经济层面来看，这可能是AI和广大内容创作者“重新谈判分账”的开端。目前，只有头部大型媒体能够与AI公司谈判授权（例如纽约时报在起诉OpenAI后才达成和解），绝大多数中小型网站、论坛甚至个人作者都被“默默爬走”，毫无反抗的能力或意识。Cloudflare的方案实际上可以将这种议价能力普及到更广泛的网站。据Cloudflare团队称，他们与新闻机构、出版商和大型社交媒体平台进行了数百次对话，他们一致“希望允许AI爬虫访问其内容，但希望获得报酬。”对于支持者来说，“Pay Per Crawl”模式在理念上非常“公平”：创作者有了收入，AI公司也避免了法律风险，从长远来看能够推动整个产业走向更合规的内容许可。

当然，AI公司未必会对此感到高兴。互联网数据不再免费，要抓取新内容就必须花钱，这意味着除了算力之外还需要考虑成本要素。但另一方面，这也或许会抑制滥抓取的行为，并迫使AI模型开发者在数据选择上更加具有针对性——例如，针对性地购买高价值的内容，而不是一股脑地将各种网站的内容都喂进模型里。Matthew Prince认为，“AI引擎就像一块瑞士奶酪，真正能够填补这块奶酪孔洞的全新原创内容，比如今占据网络大部分版面的重复性、低价值内容更有价值。”在他看来，流量一直以来都无法准确衡量内容的价值。“如果我们能够开始对内容进行评分和评估，不是根据它产生了多少流量，而是根据它对知识的促进程度（以它填补了多少AI引擎‘瑞士奶酪’中的现有孔洞来衡量）——我们不仅可以帮助AI引擎更快地进步，而且有可能促进高价值内容创作的新黄金时代。”不过，数字权利倡导者可能会提出疑问：小型AI创业团队、研究者、开源社区，能否承担这样的数据成本？学术研究、公益存档这些“良性爬虫”会不会寸步难行，只能访问有限的、低价值的数据源？在一个广告收益下滑、流量成本高涨的现实里，会有多少网站愿意无偿开放给AI爬虫吸血？这会不会成为“封闭化”的开始，让互联网失去其自由与共享的精神？如果全网都默认封锁收费，这会不会无意中加剧“大厂垄断”？毕竟，大厂更有财力支付高昂的数据费用。

“Pay Per Crawl”模式一方面试图解决AI吸血内容却不反哺的问题，另一方面也有可能在无意中提高AI创新的门槛，使我们重新回到版权保护与知识开放的命题。当然，Cloudflare只是赋予了网站更多的自主权。网站所有者完全可以选择对公益、非营利项目继续免费开放。权力仍然掌握在创作者手中。无论如何，他们值得获得“补偿”。在Cloudflare CEO的描述中，这场变革的目标是“构建更美好的互联网”。“我们尚未掌握所有答案，但我们正在与一些顶尖的经济学家和计算机科学家合作，共同寻找答案。”目前，其他CDN和安全提供商（例如Akamai、Fastly、Amazon CloudFront）尚未宣布类似的功能。虽然Cloudflare的“Pay Per Crawl”看起来只是一个CDN产品的新功能，但从某种意义上来说，它可能标志着互联网发展的一个重要转折点。在搜索时代，内容的价值是通过用户访问转化为广告收益来实现的。但在AI时代，用户可能根本不会再点击进入网站——所有的答案都在聊天机器人里总结生成。我们是应该继续让AI大模型免费挖掘网络内容，还是应该在数据获取上回归“互惠”原则，让创作者获得应有的补偿？补偿的额度又应该如何确定？这个早期实验可能正在为一个新的AI时代的数据经济形态铺平道路。无论最终结果如何，Cloudflare的立场都非常明确：AI不能无限度地透支创作者的耐心，更不能以“开放”的名义将人类的劳动变成免费的燃料。“网络正在发生变革，其商业模式也将随之改变。在这个过程中，我们有机会从过去的30年里吸取经验，从而在未来做得更好。”正如Cloudflare自己所承认的那样：“这仅仅是个开始。”