AI内容分发新模式:Cloudflare的“赛博菩萨”之路
2025年,互联网内容领域发生了一场深刻的变革。Cloudflare,这家掌握全球约20%网络流量的互联网基础设施巨头,推出了一项实验性产品——“Pay Per Crawl”。这项举措旨在改变AI爬虫对网络内容的“免费午餐”模式,为内容创作者争取应有的报酬,也为AI公司的数据获取建立一套新的规则。
Cloudflare 的这一举动,无疑给内容创作者带来了新的希望。长期以来,他们生产的内容被 AI 公司无偿抓取,用于训练模型,而自身却难以获得相应的回报。这种不公平的现象,随着 “Pay Per Crawl” 的推出,有望得到改变。内容创作者可以选择允许 AI 爬虫自由访问,按次爬取收费,或者直接封锁访问,从而掌握了内容分发的主动权。
AI巨头的“免费午餐”时代终结?
在过去,搜索引擎通过为网站带来流量,促成了网站通过广告或订阅实现变现的商业模式。然而,AI时代的到来打破了这一平衡。AI公司利用爬虫技术抓取全网内容作为训练燃料,却很少给予内容创作者实际回报。用户可以直接在AI聊天机器人中获得答案,无需访问网站,导致网站流量骤降。
更令人担忧的是,谷歌等搜索引擎巨头也在改变策略。它们在搜索结果页面直接提供“人工智能概述”,用户无需点击链接即可获得答案。Cloudflare的数据显示,谷歌的爬虫大约每6至7次抓取能为网站带回1次点击,而OpenAI则是1500次才换来1次跳转,Anthropic的比例更是高达73300次换1次。这种巨大的差距,让内容创作者难以维持。
Cloudflare CEO Matthew Prince表示,有了OpenAI,网站流量获取难度比谷歌时代高出750倍,而有了Anthropic,难度更是高达3万倍。他认为,这不是一个公平的交易,因为用户越来越消费原创内容的衍生品,而不是原创内容本身。
此外,AI公司爬取数据还面临着版权诉讼的风险。纽约时报等新闻机构就曾因版权问题起诉OpenAI。Cloudflare推出“Pay Per Crawl”,旨在解决这些问题,建立一个“按次付费爬取”的市场。
AI“过路费”:技术落地的挑战与机遇
Cloudflare凭借其在全球CDN网络中的独特地位,为“Pay Per Crawl”的落地提供了技术基础。Cloudflare在全球300多个城市部署了节点,承载约20%的Web流量,使其能够识别和处理AI爬虫的访问请求。站长可以在Cloudflare后台设定三种模式:允许、收费、封锁。
所有新加入Cloudflare的网站默认封锁AI爬虫,除非站长主动允许。只有与Cloudflare建立合作关系的AI公司才能参与支付机制,否则将被封锁。如果AI爬虫向付费URL发起请求,尚未付费,Cloudflare就会返回HTTP 402 Payment Required状态码,提示需要支付。AI爬虫可以在请求里带上支付信息,以表示同意支付配置的价格,一旦匹配价格就放行并自动结算。
为了防止“山寨爬虫”冒充合规者逃避支付,Cloudflare要求AI公司注册密钥,用数字签名保证身份。这种方式改变了过去robots.txt的“软约束”,将其变为“硬闸门”。
然而,Cloudflare的数据显示,目前排名前10000的域名中,只有约37%拥有robots.txt文件。这意味着,要让“Pay Per Crawl”发挥作用,还需要更多的网站加入到Cloudflare的生态系统中。
目前,“Pay Per Crawl”仍处于内测阶段,仅部分大型出版商参与,如BuzzFeed、《大西洋月刊》和《财富》等。Cloudflare还在持续公开征集有意向的内容创作者和抓取者。
Cloudflare对未来有很多设想,例如,出版商可以针对不同内容类型收取不同费用,或者根据AI应用的用户数量进行动态定价,或者根据训练、推理、搜索等不同领域引入更细粒度的定价策略。他们还认为,按次付费爬虫的真正潜力或许会在Agent智能代理的世界中显现。
Internet的十字路口:机遇与挑战并存
“Pay Per Crawl”模式的推出,标志着AI和广大内容创作者之间“重新谈判分账”的开端。它将议价能力普及到更广泛的网站,让中小网站、论坛甚至个人作者也能在AI时代获得应有的补偿。
据Cloudflare团队称,他们与新闻机构、出版商和大型社交媒体平台进行了数百次对话,他们一致希望允许AI爬虫访问其内容,但希望获得报酬。
对于支持者来说,“Pay Per Crawl”模式在理念上很“公平”:创作者有了收入,AI公司也避免了法律风险,长远看能推动整个产业走向更合规的内容许可。
然而,AI公司可能并不乐见这种模式。互联网数据不再免费,要抓新内容,就得花钱,这意味着算力之外的成本要素。但另一方面,这也或许会抑制滥抓取,也迫使AI模型开发者在数据上更有选择性,针对性购买高价值的内容,而不是一股脑地把各种网站内容都喂进模型里。
Matthew Prince认为,AI引擎就像一块瑞士奶酪,真正能够填补这块奶酪孔洞的全新原创内容,比占据网络大部分版面的重复性、低价值内容更有价值。他希望能够开始对内容进行评分和评估,不是根据它产生了多少流量,而是根据它对知识的促进程度,从而促进高价值内容创作的新黄金时代。
然而,数字权利倡导者可能会担心,小型AI创业团队、研究者、开源社区,能否承担这样的数据成本?学术研究、公益存档这些“良性爬虫”会不会寸步难行,只能访问有限、低价值的数据源?
在一个广告收益下滑、流量成本高涨的现实里,会有多少网站愿意无偿开放给AI爬虫吸血?这会不会成为“封闭化”的开始,让互联网失去它的自由与共享精神?如果全网都默认封锁收费,这会不会无意中加剧“大厂垄断”?毕竟,大厂比较有钱。
“Pay Per Crawl”模式在试图解决AI吸血内容却不反哺问题的同时,也有可能在无意中加高AI创新的门槛,回到版权保护与知识开放的老命题。
当然,Cloudflare只是给网站更多自主权。网站所有者完全可以选择对公益、非营利项目继续免费开放。权力仍然在创作者手里。不管怎么说,他们值得获得“补偿”。
Cloudflare的“Pay Per Crawl”看起来只是一个CDN产品的新功能,但它可能成为互联网走到一个分岔口的信号。在搜索时代,内容的价值是通过用户访问转化为广告收益。但AI时代,用户可能根本不会再点进网站——所有答案都在聊天机器人里总结生成。是继续让AI大模型免费挖掘网络内容,还是在数据获取上回归“互惠”原则,让创作者获得应有的补偿?补偿又能有多少?
这个早期实验可能在为一个新的AI时代数据经济形态铺路,无论成败如何,它的立场很明显:AI 不能无限透支创作者的耐心,并在“开放”的名义下把人的劳动变成免费的燃料。
Cloudflare的这一举措,无疑为互联网的未来发展带来了新的思考。它能否成功构建一个更美好的互联网?让我们拭目以待。