在数字化浪潮的推动下,人工智能(AI)正以前所未有的速度渗透到各个领域,其中内容创作领域的变化尤为显著。一篇发表于2025年7月3日的文章,深入探讨了AI技术对网络内容生态带来的挑战与变革,以及一家名为Cloudflare的公司如何试图在这一变革中扮演关键角色。文章以“「赛博菩萨」发威!AI 巨头的「免费午餐」时代终结了!”为题,揭示了AI巨头在数据获取方面临的新挑战,以及内容创作者寻求合理回报的呼声。
Cloudflare,这家掌控全球约20%网络流量的互联网基础设施巨头,被誉为“赛博菩萨”。它在2025年7月推出了一项实验性产品和交易市场——“Pay Per Crawl”,旨在为AI爬虫制定新的规则:要么获得许可,要么付费。这一举措的本质是为网站内容创作者提供一个选项“开关”:可以选择允许AI爬虫自由访问,按次爬取收费,或者直接封锁访问。Cloudflare创始人的观点是,内容是驱动AI引擎的燃料,因此内容创作者直接获得报酬才是公平的。
这一举措无疑给AI公司带来了新的挑战。过去,AI公司可以免费获取网络上的大量数据来训练模型,而现在,它们需要为这些数据付费。然而,这并非全无好处。通过明码标价付费,AI公司可以避免潜在的版权争议,从而更安心地进行模型训练。那么,Cloudflare的这一“防虫”举措能否有效缓解AI爬虫的肆意攻击?更重要的是,这家公司能否利用其独特的地位,建立起一个全新的AI时代内容分发和变现模式?
在过去几十年里,大多数网页默认是公开“可爬”的。谷歌、Bing这类搜索引擎为网站带来流量,有了流量,网站再通过广告或销售订阅变现——这是搜索时代的隐形契约。然而,在AI时代,传统搜索流量骤降,使得这种隐形契约难以为继。AI公司将全网内容当作训练燃料,却几乎不用给大部分创作者回报。当用户直接在AI聊天机器人里提问,答案往往来源于总结好的内容,而不是数十个蓝色链接,这无疑减少了网站的流量。
甚至像谷歌这样的搜索巨头本身也在发生变化。过去,他们提供网站链接列表,而现在,他们在搜索页面推出了“人工智能概述”。据他们的报告,75%的查询用户无需点击任何链接就得到了解答。Cloudflare在2025年7月的数据显示,谷歌的爬虫大约每6至7次抓取给网站带回1次点击,而OpenAI则是1500次才换来1次跳转,Anthropic的比例更是高达73300次换1次。这意味着,传统的“内容换流量”模式已经失效。相比传统搜索引擎,AI巨头们消耗了海量网站内容,却不给“导流”,这种失衡让一些内容生产者愈发难以为继。
Cloudflare CEO Matthew Prince在一篇博文中指出,有了OpenAI,网站流量获取难度比谷歌时代高出750倍,而有了Anthropic,难度更是高达3万倍。原因在于,人们越来越不再消费原创内容,而是消费它们的衍生品。因此,他认为这不是一个公平的交易。此外,AI公司爬数据也并非没有代价。近年来,AI巨头一直被指控“偷内容”来训练大模型,引发全球范围的版权诉讼潮,尤其是纽约时报等新闻机构与OpenAI之间的诉讼不断。
因此,Cloudflare推出“Pay Per Crawl”,旨在建立一个“按次付费爬取”的市场,以解决这一问题。该公司设计了一个权限和支付系统,网站可以在后台选择对AI爬虫“允许、封锁或收费”。如果AI爬虫想要抓取该网站内容,必须注册、验证身份,并在每次访问时完成支付。如果这一模式能够顺利推行,它将使网络内容从“广告变现”走向“内容授权变现”,从而开拓全新的收入来源。无论是大型媒体还是冷门小博客,都能在AI时代拥有议价权,并被AI付费使用。Cloudflare CEO甚至将“Pay Per Crawl”的推出日称为“内容的独立日”。
当然,设想很美好,但技术如何落地?Cloudflare起家于提供CDN、DDoS防护、DNS、零信任安全等服务。它在全球300多个城市部署了节点,承载约20%的Web流量,这为它充当“中介”提供了便利。“Pay Per Crawl”建立在其全球CDN网络的中间层,使其能够在访问请求到达源站之前就识别和处理AI爬虫。站长可以在Cloudflare后台设定三种模式:允许、收费、封锁。
所有新加入Cloudflare的网站默认封锁AI爬虫,除非站长主动允许。只有与Cloudflare建立合作关系的AI公司才能参与支付机制,否则将被封锁。如果AI爬虫向付费URL发起请求但尚未付费,Cloudflare会返回HTTP 402 Payment Required状态码——一个过去几乎没人使用的、专门为“网络支付”预留的状态码。AI爬虫可以在请求里带上支付信息,以表示同意支付配置的价格,一旦匹配价格就放行返回200 OK,并自动结算。Cloudflare本身则充当这个交易的“收银台”,负责聚合账单和分发收益。
更重要的是,这种机制并非简单的User-Agent欺骗就能绕过。Cloudflare要求AI公司注册密钥,并使用数字签名来保证身份,以防止“山寨爬虫”冒充合规者逃避支付。过去,robots.txt是一个放在网站根目录下的纯文本文件,用于告知搜索引擎的爬虫哪些页面可以抓取,哪些不可以。但它只是网站的“礼貌建议”,很多AI爬虫根本不予理会。Cloudflare的方案改变了这一点,将现有的、依靠robots.txt的“软约束”变成了“硬闸门”。然而,据Cloudflare称,目前排名前10000的域名中,只有约37%拥有robots.txt文件。
要参与Cloudflare的爬取付费市场,爬取方和被爬取方都需要开设Cloudflare账户。截至目前,“Pay Per Crawl”仍处于内测阶段,仅部分大型出版商参与,如BuzzFeed、《大西洋月刊》和《财富》等。Cloudflare还在持续公开征集有意向的内容创作者和抓取者。“我们预计按次付费模式将迎来显著发展。”Cloudflare官方表示。虽然目前仍处于初期阶段,但该公司对未来还有很多设想。例如,出版商或其他机构可以针对不同内容类型收取不同费用,或者根据AI应用的用户数量进行动态定价,或者根据训练、推理、搜索等不同领域引入更细粒度的定价策略。
他们还认为,按次付费爬虫的真正潜力或许会在Agent智能代理的世界中显现。“如果智能代理付费墙能够完全以程序化的方式运作,会怎样?想象一下,你可以请你的深度研究助手帮你整理最新的癌症研究、法律简报,或者帮你找最好的餐厅——然后给这位智能代理一笔预算,用于获取最有用、最相关的内容。”“以HTTP 402响应代码为基石的首个解决方案,将开启一个智能代理能够以程序化方式协商访问数字资源的未来。”Cloudflare表示。
从经济层面来看,这可能是AI和广大内容创作者“重新谈判分账”的开端。目前,只有头部大型媒体能够与AI公司谈判授权(例如《纽约时报》在起诉OpenAI后才达成和解)。绝大多数中小网站、论坛甚至个人作者都被“默默爬走”,毫无反抗的能力或意识。Cloudflare的方案实际上可以将这种议价能力普及到更广泛的网站。
据Cloudflare团队称,他们与新闻机构、出版商和大型社交媒体平台进行了数百次对话,他们一致“希望允许AI爬虫访问其内容,但希望获得报酬。”对于支持者来说,“Pay Per Crawl”模式在理念上很“公平”:创作者有了收入,AI公司也避免了法律风险,长远来看能够推动整个产业走向更合规的内容许可。
当然,AI公司未必对此感到高兴。互联网数据不再免费,想要抓取新内容就必须花钱,这意味着算力之外的成本要素。但另一方面,这也可能抑制滥抓取,并迫使AI模型开发者在数据选择上更加谨慎——例如,有针对性地购买高价值内容,而不是不加选择地将各种网站内容都喂给模型。Matthew Prince表示,“AI引擎就像一块瑞士奶酪,真正能够填补这块奶酪孔洞的全新原创内容,比如今占据网络大部分版面的重复性、低价值内容更有价值。”
在他看来,流量一直以来都无法准确衡量内容的价值。“如果我们能够开始对内容进行评分和评估,不是根据它产生了多少流量,而是根据它对知识的促进程度(以它填补了多少AI引擎「瑞士奶酪」中的现有孔洞来衡量)——我们不仅可以帮助AI引擎更快地进步,而且有可能促进高价值内容创作的新黄金时代。”不过,数字权利倡导者可能会提出质疑:小型AI创业团队、研究者、开源社区能否承担这样的数据成本?学术研究、公益存档这些“良性爬虫”是否会寸步难行,只能访问有限、低价值的数据源?
在一个广告收益下滑、流量成本高涨的现实中,会有多少网站愿意无偿开放给AI爬虫吸血?这是否会成为“封闭化”的开始,让互联网失去其自由与共享精神?如果全网都默认封锁收费,这是否会无意中加剧“大厂垄断”?毕竟,大型企业更有经济实力。“Pay Per Crawl”模式一方面试图解决AI吸血内容却不反哺的问题,另一方面也有可能在无意中提高AI创新的门槛,最终回归到版权保护与知识开放的讨论。
当然,Cloudflare只是赋予网站更多自主权。网站所有者完全可以选择对公益、非营利项目继续免费开放。权力仍然掌握在创作者手中。无论如何,他们都值得获得“补偿”。Cloudflare CEO表示,这场变革的目标是“构建更美好的互联网”。“我们尚不知道所有答案,但我们正在与一些顶尖的经济学家和计算机科学家合作寻找答案。”目前,其他CDN和安全提供商(例如Akamai、Fastly、Amazon CloudFront)尚未宣布类似的功能。
虽然Cloudflare的“Pay Per Crawl”看起来只是一个CDN产品的新功能,但从某种意义上说,它可能标志着互联网发展的一个重要转折点。在搜索时代,内容的价值通过用户访问转化为广告收益。但在AI时代,用户可能根本不会再点击进入网站——所有答案都在聊天机器人中总结生成。是继续让AI大模型免费挖掘网络内容,还是在数据获取上回归“互惠”原则,让创作者获得应有的补偿?补偿又能有多少?这个早期实验可能正在为一个新的AI时代数据经济形态铺平道路。无论成败如何,Cloudflare的立场都很明确:AI不能无限透支创作者的耐心,并在“开放”的名义下将人的劳动变成免费的燃料。
“网络正在发生变革,其商业模式也将随之改变。在这个过程中,我们有机会从过去的30年中吸取经验,使其在未来变得更好。”至于事情是否真的会变好,正如Cloudflare自己承认的那样:“这仅仅是个开始。”