AI全球采用不均:经济差距与区域创新

2

人工智能技术的采用速度前所未有,但其地理分布和企业应用却呈现出显著的不均衡性。Anthropic最新发布的第三期经济指数报告通过对Claude.ai使用数据和API企业应用的分析,揭示了AI技术在全球范围内的扩散模式及其对经济可能产生的深远影响。本报告将深入探讨这些发现,分析AI采用的不均衡性及其经济含义,并展望未来发展趋势。

AI采用的加速与不均衡性

AI技术的采用速度远超以往任何技术。仅在美国,就有40%的员工报告在工作中使用AI,这一比例在2023年仅为20%。

历史数据表明,新技术通常需要数十年才能实现广泛采用。电力在城市电气化后用了30多年才进入农村家庭;第一台面向大众市场的个人电脑于1981年问世,但又过了20年才进入大多数美国家庭;即使是迅速普及的互联网也用了大约五年时间才达到AI在两年内实现的采用率。

这种差异源于新技术扩散的基本规律:即使具有变革性的技术也需要时间在整个经济中扩散,消费者采用需要减少地理集中度,企业需要重构业务运营以充分利用新技术能力。企业采用通常从狭窄的任务集开始,然后扩展到更通用的应用,这是重要技术传播并产生经济转型影响的主要方式。

**简而言之,早期技术采用的标志是集中性——既在少数地理区域集中,也在企业中的少数任务集中。**正如本报告所记录的那样,AI采用在21世纪似乎遵循了类似的模式,尽管时间线更短,强度比20世纪的技术扩散更大。

Claude.ai使用的时间演变

在本报告的第一章中,我们识别了过去八个月Claude.ai使用中的显著变化,这些变化伴随着底层模型能力的提升、新产品功能的推出以及Claude用户群的扩大。

主要发现:

  • 教育和科学使用份额上升:尽管Claude用于编程的使用在我们的总样本中仍占主导地位(36%),但教育任务从9.3%跃升至12.4%,科学任务从6.3%增至7.2%。
  • 用户赋予Claude更多自主权:"指令式"对话(用户将完整任务委托给Claude)从27%跃升至39%。我们在编程中看到程序创建的增加(+4.5个百分点)和调试的减少(-2.9个百分点)——这表明用户可能能够在单次交流中实现更多目标。

新能力塑造使用模式

在更细致的层面,我们记录了任务组成的变化,这些变化似乎与V2和V3之间发布的功能有关。例如,搜索电子来源和数据库大幅增长(0.03%→0.49%),这可能反映了我们三月份发布的网络搜索功能。此外,我们还看到基于互联网的研究任务有所增加(0.003%→0.27%),这与我们四月份发布的研究模式相吻合。

我们还观察到其他类型的变化。与开发教学材料相关的任务增加了1.3个百分点,从0.2%增长到1.5%——增长了6倍以上,这可能反映了教育工作者中采用的增长。创建多媒体文档增加了0.4个百分点,从0.16%增加到0.55%,可能是由于持续使用我们的Artifacts功能在Claude.ai中构建传统和AI驱动的应用程序。

有趣的是,涉及创建新代码的任务份额增加了一倍多,增加了4.5个百分点(从4.1%到8.6%),而调试和错误修正任务下降了2.8个百分点(从16.1%到13.3%)——净变化7.4个百分点,向创建代码而非修复代码转变。这可能表明模型变得越来越可靠,用户花在解决问题上的时间减少,在单次交互中花在创造上的时间更多。

指令式自动化加速

与之前的报告一样,我们也不仅跟踪人们使用Claude的用途,还跟踪他们如何与Claude协作或委托任务。

在高层次上,我们区分使用Claude的自动化和增强模式:

自动化包括专注于任务完成的交互模式:

  • 指令:用户给Claude一个任务,它以最少的前后互动完成
  • 反馈循环:用户自动化任务并根据需要向Claude提供反馈

增强专注于协作交互模式:

  • 学习:用户向Claude询问各种主题的信息或解释
  • 任务迭代:用户与Claude协作迭代任务
  • 验证:用户要求Claude对其工作进行反馈

从Claude.ai对话中抽样的"指令"对话份额从2024年底V1的27%上升到V3的39%。这种增加主要来自"任务迭代"和"学习"互动的减少,意味着显示出自动化使用模式的对话份额有了显著增加——仅在八个月内。这是自动化使用首次超过增强使用的报告。

图1.2:Anthropic经济指数报告中的协作模式频率。左面板计算显示自动化或增强使用形式的对话份额。右面板按协作模式细分。Claude倾向于随时间以更自动化的方式使用,主要由指令使用增加驱动。

未来展望

V3数据显示AI能力和采用正在持续进步。基于知识的任务,包括教育和科学应用,继续快速增长,新产品功能似乎正在启用不同类型的工作,而不仅仅是加速现有任务。

最显著的是,数据指向向AI系统委托任务的增加——可能是由于用户对技术的信任以及底层模型能力的改善。这也可能是由于基础用户群的变化。本报告的下一章首次按地理划分使用情况,使我们能够更清楚地分离时间变化与地理变化。我们将在未来的报告中继续密切关注这些趋势。

AI采用的地理分布

全球扩散模式

Claude整体采用高度集中在地理上。就全球总使用量而言,美国占比最高(21.6%),其次是使用量显著较低的国家(印度占7.2%,巴西占3.7%)。然而,这种集中性受到各国人口规模的影响——较大的国家可能仅因人口规模而有较大的使用份额。

为考虑人口规模的差异,我们分析了按工作年龄人口调整的使用情况,引入了一个名为Anthropic AI使用指数(AUI)的新指标:对于每个地理区域,我们计算其Claude使用份额和工作年龄人口(15-64岁)的份额,然后通过除以这些份额来计算AUI:

Anthropic AI使用指数公式

该指数揭示了各国相对于其工作年龄人口的使用情况是否高于或低于预期。AUI > 1的地区在调整人口后使用率高于预期,而AUI < 1的地区使用率低于预期。

结果揭示了小型技术先进经济体的集中模式。以色列引领全球人均Claude使用,Anthropic AI使用指数为7——意味着其工作年龄人口的使用量是基于人口的预期值的7倍。新加坡以4.57位居第二,澳大利亚(4.10)、新西兰(4.05)和韩国(3.73)紧随其后,构成了人均Claude使用的前五名国家。

图2.2:小型技术先进国家在人均Claude采用方面领先。该图显示了基于Anthropic AI使用指数的前20个国家。由于我们随机样本中低使用国家的不确定性,该图仅包括我们样本中至少有200次观察的国家。基础数据包括Claude.ai免费版和付费版的使用情况。

按人均使用率划分的领先和新兴国家

这种在人口有限的高级经济体中的集中性反映了它们作为技术先驱的既定模式。例如,以色列和新加坡在全球创新指数中均排名靠前——这是衡量全球不同经济体创新能力的指标——表明对信息技术的总体投资使经济体能够快速采用前沿AI。总体而言,这些经济体可以利用其受过教育的劳动力、强大的数字基础设施和创新友好的政策,为AI创造有利条件。

值得注意的是主要发达经济体在Claude使用中的地位。美国(3.62)在人均采用方面位居领先国家之列,加拿大(2.91)和英国(2.67)的采用率相对于其人口较高但较为温和。其他主要经济体的采用率较低,包括法国1.94、日本1.86和德国1.84。

与此同时,许多中低收入经济体的Claude使用量 minimal,非洲、拉丁美洲和亚洲许多地区的Claude采用率低于其工作年龄人口的预期。这包括玻利维亚(0.48)、印度尼西亚(0.36)、印度(0.27)和尼日利亚(0.2)。

这种使用差异反映了这些经济体之间的收入差异。我们看到Claude采用与人均国内生产总值之间存在强烈的正相关关系(见图2.4),人均GDP每增长1%与人均Claude使用量增长0.7%相关。

图2.4:各国人均Claude使用量与人均收入正相关。由于我们随机样本中低使用国家的不确定性,该图仅包括我们样本中至少有200次观察的国家。坐标轴采用对数刻度,突出显示幂律分布。每个国家以其3字母ISO代码表示。

Claude使用率的差异可能反映了多种因素的共同作用,其中一些因素与收入相关:

  • 数字基础设施:高使用率国家通常拥有访问AI助手所需的强大互联网连接和云计算能力。
  • 经济结构:如本报告和先前报告所记录,Claude能力非常适合知识工作者典型执行的多种任务。与制造业就业份额较大、较低收入的经济体相比,高级经济体在知识工作者角色中的劳动力份额往往更大。
  • 监管环境:政府在不同行业积极鼓励AI使用的方式以及对技术的监管程度各不相同。
  • 意识和获取渠道:与硅谷和AI研究社区联系更紧密的国家可能对Claude有更高的认识和获取渠道。
  • 信任和舒适度各国对AI信任的公众意见差异很大。

美国国内的采用差异

在美国,加州以25.3%的使用率遥遥领先。其他拥有主要科技中心的城市如纽约(9.3%)、德克萨斯州(6.7%)和弗吉尼亚州(4.0%)也排名靠前。然而,当我们调整各州的人口规模时,情况变得更加复杂。令人惊讶的是,哥伦比亚特区领先,Anthropic AI使用指数为3.82,表明DC的Claude使用量是其国家工作年龄人口份额的3.82倍。紧随其后的是犹他州(3.78),明显领先于加州(2.13)、纽约(1.58)和弗吉尼亚州(1.57)。

图2.5:在人均Claude采用方面领先的美国州包括哥伦比亚特区、犹他州、加州、纽约和弗吉尼亚。该图显示了基于Anthropic AI使用指数的前20个美国州。由于我们随机样本中低使用州的不确定性,该图仅包括我们样本中至少有100次观察的州。基础数据包括Claude.ai免费版和付费版的使用情况。

我们发现美国各州之间的Claude采用与人均收入之间的相关性比全球层面弱,但相关性仍然存在。收入差异只能解释跨州采用率差异不到一半。尽管这种相关性较弱,但我们发现Claude采用率随收入增长更快:各州人均GDP每增长1%,AI使用指数增长1.8%。

图2.6:美国各州的Claude使用情况存在差异,西海岸人均使用率较高,但内华达州、犹他州、科罗拉多州、密苏里州和弗吉尼亚州的使用率也较高。不同的层级反映了美国各州在本章定义的美国Anthropic AI使用指数分布中的位置。

各国任务使用模式

我们观察到不同国家Claude使用方式的显著差异。与过去的报告一样,我们使用两种不同的方法分析这些趋势。首先,我们根据O*NET(一个将特定任务映射到职业和职业组的美国分类法)将对话分类为任务。其次,我们使用Claude构建Claude.ai用户请求的自下而上分类法,这提供了不适合现有分类法的使用模式见解。

更高的人均Claude使用率与更多样化的任务使用相关

当分析在最高级别聚合的O*NET任务(属于标准职业分类职业组)时,我们注意到各国之间存在强烈差异。虽然整体模式很嘈杂——特别是对于观察次数较少的国家——图2.7表明,随着我们从较低人均Claude采用率国家向较高采用率国家进展,使用从计算机和数学职业组的任务(如编程)转向更多样化的任务,如教育、办公和行政用途以及艺术。我们还看到生命、物理和社会科学的使用增加。

图2.7:随着我们从低采用率国家向高采用率国家发展,Claude使用似乎从以编程为主导的任务转向更多样化的任务组合,尽管整体模式嘈杂。该图显示了Anthropic AI使用指数与最频繁的标准职业分类(SOC)职业组之间的关系。每个面板显示一个不同的SOC组。SOC份额基于给定地理区域中属于给定SOC组的O*NET任务数量。颜色表示国家所属的AUI层级。气泡大小表示每个国家的使用量。由于我们随机样本中低使用国家的不确定性,该图仅包括我们样本中至少有200次观察的国家。回归对每个国家赋予相同权重。

当我们查看自下而上的请求分类法时,也出现了国家特有的模式。例如,美国、巴西、越南和印度代表了在给定Anthropic AI使用指数层级中总使用量最高的国家。与美国全球平均水平相比,美国用户不成比例地使用Claude进行家庭管理、求职和医疗指导。相比之下,巴西的Claude用户在翻译和法律服务方面的使用率相对较高。越南的过度代表性请求与软件开发和教育相关,而印度的过度代表性请求几乎完全集中在软件开发上。这可能反映了当地专业化:巴西是司法系统中AI的早期采用者,而印度拥有庞大的信息技术部门。

图2.8:美国、巴西、越南和印度的过度代表性请求集群。当一个国家的对话包含该请求的比例高于全球平均水平时,该请求在该国家中过度代表性。对于该图,我们专注于中等粒度级别的请求集群,即比最低级别的请求集群更聚合,但比最高级别的请求集群更不聚合。仅包括在全球和该国至少占1%频率的请求。

在所有国家中,软件开发 emerges as the most common use of Claude. Why do developer tasks consistently lead in overall Claude usage patterns? Several factors likely contribute to this effect:

  • 模型-任务匹配度:Claude是非常强大的编程模型,可轻松应用于代码生成、调试和技术问题解决任务。
  • 开发者接受度:开发者社区迅速接受新工具,这种使用通过他们的社交和专业网络扩散。
  • 低组织障碍:个别开发者通常可以采用Claude而无需复杂的批准流程——与医疗用例形成对比。

美国各州的任务使用模式

在本节中,我们探索美国各州Claude使用的模式,深入了解当地经济条件如何塑造使用模式。如上所述,美国各州之间Anthropic AI使用指数的差异只能解释各州收入差异不到一半。这表明其他地区差异——包括Claude能力与当地劳动力职业结构的兼容性——在决定为什么某些州的使用比其他州更集中方面起着更大作用。

在许多州,我们有证据表明AI使用的当地模式与当地经济的独特特征相一致。当我们分析每个使用层级的前沿州——领导层级的加州,中上层的德克萨斯州,中下层的佛罗里达州,以及新兴层级的南卡罗来纳州——时,我们在自下而上的请求分类法中看到强烈差异(见图2.9)。

例如,加州在IT相关请求、数字营销和翻译方面显示出不成比例的使用,这反映了其科技行业和语言多样化的人口。加州在基本数值任务方面的请求也相对频繁,这可能代表模型能力测试或滥用。佛罗里达州在商业建议和健身方面的使用不成比例,这可能与其作为金融中心的地位以及相对较低的税率和对户外活动有利的气候有关。

图2.9:加州、德克萨斯州、佛罗里达州和南卡罗来纳州的过度代表性请求类别。当一个州的对话包含该请求的比例高于美国整体时,该请求在该州中过度代表性。对于该图,我们专注于中等粒度级别的请求集群,即比最低级别的请求集群更聚合,但比最高级别的请求集群更不聚合。仅包括在美国和该州至少占1%频率的请求。

在美国,哥伦比亚特区在人均Claude使用方面领先,在O*NET任务分类和自下而上分类中,不成比例地专注于文档编辑、信息提供和求职申请(见图2.10)。例如,在DC,求职申请的帮助是美国整体水平的1.84倍。我们的交互式仪表板允许每个人探索美国各州变化的完整范围和模式。

图2.10:华盛顿特区拥有最高的人均Claude使用率,不成比例的任务和请求集中在文档编辑、信息提供和求职申请上。O*NET任务指的是O*NET分类法中的任务。请求基于描述用户向Claude提出的请求的自下而上请求类别。当一个州的对话包含该任务或请求的比例高于美国整体时,该任务或请求在该州中过度代表性。对于该图,我们专注于中等粒度级别的请求集群。仅包括在美国和该州至少占1%频率的任务或请求。

地理模式中的人机协作

虽然前面的部分探讨了人们使用Claude的什么任务,但同样引人注目的是他们如何与之交互的模式。在这里,我们使用与第一章中相同的增强和自动化协作模式。

各国有不同的任务组合,这意味着它们专注于不同的经济任务,这可能在一定程度上解释了自动化模式的差异。在本节中,我们调查低人均采用经济和高人均采用经济中的自动化使用是否系统不同——即使控制了任务组合的差异。

我们发现,即使控制了国家的任务组合,来自不同国家的用户在自主委托与协作交互方面显示出明显不同的偏好。随着人均Claude使用量的增加,国家从以自动化为重点转向以增强为重点的使用。这有点反直觉,因为我们控制了不同国家之间更多样化的任务组成。我们推测文化和经济因素可能影响自动化份额,或者每个国家的早期采用者倾向于以更自动化的方式使用AI——但需要更多研究。

图2.11:Anthropic AI使用指数较高的国家倾向于以更协作的方式(增强)使用Claude,而不是让Claude独立运行(自动化)。该图显示了Anthropic AI使用指数与给定国家自动化份额之间的关系。我们在考虑了一个地理区域的任务组合后绘制了这种关系,因此我们显示回归残差。由于我们随机样本中低使用国家的不确定性,该图仅包括我们样本中至少有200次观察的国家。每个国家以其3字母ISO代码表示。

企业API部署的系统性模式

企业采用模式

在深入研究API数据之前,值得我们在更广泛的企业AI采用格局中定位自己。根据人口普查局的商业趋势和展望调查,美国企业的AI采用在过去两年中翻了一番多,从2023年秋天的3.7%上升到2025年8月初的9.7%(图3.1)。尽管增长率如此之快,但美国绝大多数企业并未报告在生产过程中使用AI。

但这些总体数字掩盖了各行业之间的巨大差异。例如,在2025年8月初,信息行业的企业中有四分之一报告使用AI,这大约是住宿和食品服务业的十倍。

这些公开数据描绘的图景很明确:企业AI使用正在快速增长,但我们仍处于AI采用的早期阶段。使用在整个经济中仍然分布不均,能够快速采用并从这项技术中受益的行业处于领先地位。

正如我们将在下面看到的,我们的1P API数据得出了互补的结论:Claude的早期企业使用同样在整个经济中分布不均,主要用于信息行业职业的典型任务。

图3.1:美国企业AI采用率,商业趋势与展望调查(人口普查局)。注意:AI采用率是根据企业在过去两周内是否在商品或服务生产中使用人工智能(AI)回答

Anthropic API客户的专门化使用

为分析API流量,我们应用了前几章中相同的隐私保护分类方法——将匿名API转录本按O*NET任务分类并进入自下而上的分类法。出现的模式表明企业使用集中在特别适合自动化的专门任务上。

总体而言,软件开发占据主导地位。在前15个使用集群中——约占所有API流量的一半——大多数与编码和开发任务相关。调试Web应用程序和解决技术问题各占约6%的使用量,而构建专业业务软件代表了另一重要部分。值得注意的是,约5%的API流量专门用于开发和评估AI系统本身(图3.2)。

但并非所有API使用都用于编程。API客户还部署Claude来创建营销材料(4.7%)和处理业务和招聘数据(1.9%)。这两个类别表明AI不仅被用于直接生产商品和服务,还被用于人才招聘和外部沟通。

图3.2:抽样1P API转录本的Claude使用自下而上分类法。使用隐私保护方法,我们将1P API转录本分类为反映底层使用模式的自下而上分类法。该图报告了此分类法最广泛层面的主要用例。

O*NET分类使这些模式更加清晰。不到一半的所有API流量映射到计算机和数学任务——比Claude.ai usage高出8个多百分点。办公和行政任务位居第二,约占转录本的10%,反映了它们适合自动化。

另一方面,在Claude.ai上突出的许多互动性强的任务在API使用中的份额要小得多:教育和图书馆任务从12.3%下降到3.6%,而艺术和娱乐从8.2%下降到5.2%。

然而,在许多情况下,API和Claude.ai之间的职业类别相当接近,表明在许多情况下,是底层模型能力而非特定产品表面推动了采用。

图3.3:按总体使用情况划分的主要职业类别:Claude.ai与1P API。在确定任务使用份额后,我们计算来自Claude.ai和1P API客户的流量分配给O*NET分类法中顶级职业的份额。例如,该图显示我们样本中44%的API流量被分配到计算机和数学职业的典型任务。

职业细分与任务专业化

尽管服务于具有不同界面的不同用户,但API和Claude.ai usage在任务上遵循类似的幂律分布。在Claude.ai对话中,底部80%的任务类别仅占12.7%的使用量;对于API客户,更为集中,占10.5%(图3.4)。这些极端集中度(基尼系数5为0.84和0.86)揭示了AI-任务匹配度的巨大差异——最佳匹配任务的使用量比 poorly 匹配的任务高出几个数量级。

考虑到不同的用户群和用例,这两个平台之间的相似性尤其引人注目。两者都汇聚到相似的集中水平,表明AI能力与相关经济任务之间存在共同的匹配过程。

像代码生成这样的任务之所以占主导地位,是因为它们击中了模型能力出色、部署障碍最小且员工可以快速采用新技术的甜蜜点。很少使用的任务的尾部可能反映了几个因素6。例如,一些任务本身就不常见——调试软件的频率远高于谈判马戏团合同。极端集中度也表明了O-Ring7力量的潜在作用:如果一个任务需要Claude无法处理的推理水平、公司无法访问的内部数据或不存在的监管批准,任何单一障碍都可能阻止采用。

图3.4:可视化少数任务的使用集中度:Claude.ai与1P API。该图表左侧面板计算了我们在Claude.ai和1P API样本中O*NET任务的洛伦兹曲线。曲线上的突出点表示底部80%的任务占多少总体使用量。右侧面板绘制了任务排名与任务使用份额的关系,这些任务在我们的样本中至少占总体使用量的0.1%。齐普夫定律(其中最佳拟合线的系数等于-1)在各种经济环境中经常出现。

API转录本中的自动化与增强

API和Claude.ai usage之间最明显的区别在于人类和AI如何分工。当企业将Claude嵌入其应用程序时,他们主要是委托个别任务,而不是与模型协作迭代。

在我们的数据中,77%的API转录本显示自动化模式(特别是完整任务委托),而增强(例如协作改进和学习)仅占12%。基于Claude.ai的对话样本,自动化与增强的划分几乎相等。跨经济任务来看,通过API的Claude自动化程度甚至更为明显:97%的任务在API使用中显示出以自动化为主导的模式,而在Claude.ai上仅为47%(图3.6)。

这在直观上是合理的。程序化API访问自然适合自动化:企业提供上下文,Claude执行任务,输出直接流向最终用户或下游系统。

这种模式反映了具有经济意义的技术如何变得具有变革性:嵌入到让工人能够获得生产力提升而无需专门技能的系统中。虽然增强和自动化方法都能增强人类能力,但系统级自动化可能在整个经济中产生更大的生产力增长,并对劳动力市场带来更显著的变化:完全自动化某些任务,改变各种工作的重要任务,甚至产生全新的工作形式。

图3.5:跨O*NET任务的自动化与增强协作模式:Claude.ai与1P API。该图报告了Claude.ai对话和1P API转录本中显示出自动化或增强使用模式的份额,每个O*NET任务。自动化和增强模式在第一章中定义。由于隐私保护原因,当我们没有观察到特定协作模式的使用份额时,我们在该图中将该类别赋予0%的值。自动化主导定义为任务具有更高的自动化使用观察份额。增强主导同理。

Claude做得越多,需要知道得越多

为什么我们的API客户对某些任务的使用比其他任务多?除了基本的模型能力外,一个潜在的重要解释是,对于某些任务,提供成功部署所需的信息比其他任务更容易。

例如,如果目标是让Claude重构复杂软件开发项目中的一个模块,Claude可能需要阅读——至少探索——整个代码库以理解需要进行哪些更改以及在哪里进行。对于具有集中代码库的软件开发,原则上访问这些信息是直接的。

对于其他任务,适当的上下文可能不容易获取,或者可能难以访问。例如,要求Claude为关键客户制定销售策略可能需要Claude不仅访问客户关系管理系统中的信息,还需要位于客户主管、营销人员和外部联系人头脑中的隐性知识。在其他条件相同的情况下,缺乏此类上下文信息将使Claude能力降低。

我们通过查看API输入长度(即提供给Claude的上下文)与Claude平均输出长度(即模型产生的响应)之间的关系来探索这个问题8

对于我们样本中的每个O*NET任务,我们计算相关API转录本的平均输入和输出长度。然后我们将这些值除以我们样本中所有任务出现的平均值。这为每个任务生成了一个输入标记指数和一个输出标记指数。例如,1.5的指数值意味着与该任务相关的API转录本比我们样本中所有任务的平均值长50%。

不同任务的Claude API输出长度存在很大差异。例如,输出长度第90百分位的任务比第10百分位的任务长4倍以上。表3.1提供了示例ONET任务以及Claude Sonnet 4对该分布部分任务的总结*9。图3.7显示输出长度在职业类别中也系统性地变化。

表3.1:输出长度较短和较长的示例O*NET任务及Claude的总结。对于我们样本中匹配的1P API流量的每个O*NET任务,我们计算输出标记指数:将与该任务相关的转录本的平均输出长度除以我们样本中所有任务的平均(未加权)值。Claude被提示以最小指导识别输出标记指数分布的第10、第50和第90百分位的任务:

图3.6:主要职业类别中O*NET任务的平均输出标记指数。对于我们样本中匹配的1P API流量的每个O*NET任务,我们计算输出标记指数:将与该任务相关的转录本的平均输出长度除以我们样本中所有任务的平均(未加权)值。然后我们针对O*NET分类法中顶级使用职业组对给定职业类别的任务求平均值。'所有其他'将剩余职业组合并为单个类别。

从Claude对任务的评估中突出的是,较长的输出任务往往代表越来越复杂的用途。当然,输出长度并不捕捉任务复杂性的所有维度,但它似乎是一个合理的、易于测量的代理变量。

由于API客户按边际价格支付输入和输出标记,他们有动机优化模型提示以最小化使用Claude时的输入和输出标记。反过来,Claude产生的输出与输入长度之间的任何系统关系部分捕捉了在为复杂任务部署Claude时的底层上下文约束。换句话说,API客户被激励只向Claude提供完成目标所需的最少上下文,不多也不少。因此,我们了解到具有不同输出长度的任务的上下文要求。

跨任务来看,我们看到API客户向Claude提供的上下文量与Claude实际产生的量之间存在非常稳定的关系。跨经济任务,输入长度每增加1%,输出长度增加不到比例的0.38%(图3.7)。0.38的弹性表明,在这些经济有用的任务中,将较长的上下文输入转换为较长的输出存在强烈的边际收益递减10

图3.7:O*NET任务的输出标记指数与输入标记指数散点图。对于我们样本中匹配的1P API流量的每个O*NET任务,我们计算输出标记指数:将与该任务相关的转录本的平均输出长度除以我们样本中所有任务的平均(未加权)值。输入标记指数的构建方式类似。0.38的弹性意味着输入标记指数每增加1%与输出标记指数增加0.38%相关。

每任务成本与任务间的替代模式

API客户按标记付费,这导致为不同任务部署Claude的成本存在差异。更复杂的任务由于输入和输出标记数量较高,往往成本更高。这种差异帮助我们探索成本是否是决定企业选择使用Claude自动执行哪些任务的主要因素。

数据表明并非如此,至少相对而言11。例如,计算机和数学职业的典型任务比销售相关任务的成本高50%以上,但却主导了使用12。总体而言,我们发现成本与使用之间存在正相关:较高成本的任务往往具有较高的使用率(图3.9)。

成本与使用之间的正相关表明成本在企业AI部署模式中起着微不足道的作用。相反,企业可能优先在模型能力强且Claude驱动的自动化产生的经济价值超过API成本的领域使用。

图3.8:各职业类别中每任务API成本和使用份额。对于我们样本中匹配的1P API流量的每个O*NET任务,我们计算API成本指数:将与该任务相关的转录本的平均API成本除以我们样本中所有任务的平均(未加权)值。该图绘制了给定职业类别中任务的平均API成本指数与使用份额的关系。估计的弹性为3意味着每任务平均成本增加1%与样本中 prevalence 增加3%相关。

虽然这种正相关总体上成立,但我们接下来询问在其他相似但成本更高的任务中,对Claude能力的需求是否较低。考虑到这一点应被视为初步探索,这是我们的发现。

在控制任务特征的情况下,我们发现每1%的成本增加与我们样本中API转录本的使用频率减少0.29%相关13。虽然这与较高的价格导致较低需求的标准经济理论一致,但成本下降带来的使用增加有限。根据此估计,特定任务成本降低10%只会使使用量增加约3%。

除了使用Claude执行特定任务的成本外,其他因素似乎对使用模式更重要。

图3.9:控制任务特征后每任务API成本和使用份额的散点图。对于我们样本中匹配的1P API流量的每个O*NET任务,我们计算API成本指数:将与该任务相关的转录本的平均API成本除以我们样本中所有任务的平均(未加权)值。然后我们将样本限制为同时出现在我们1P API和Claude.ai样本中的任务。此部分散点图控制以下任务级特征:职业类别的固定效应、来自Claude.ai的协作模式份额,以及指示Claude.ai样本中特定协作模式是否因隐私保护而被审查的指标。估计的弹性为-0.29意味着在控制任务特征后,每任务API成本指数增加1%与样本中 prevalence 减少0.29%相关。

结论:不均衡采用的经济含义

Anthropic经济指数报告的第三版捕捉了AI采用在关键时刻的现状。Claude和其他前沿AI系统的现有能力已经准备好改变经济活动,因为该技术的适用范围非常广泛。快速发展的AI能力只会强化巨大变化即将到来的结论。

然而,早期的AI采用却显著不均衡。使用目前集中在少数任务中,地理差异很大,且与收入高度相关——特别是在国家之间。这种集中性反映了AI能力、部署难易程度和经济价值一致的地方:编程和数据分析使用率高,而需要分散上下文或复杂监管导航的任务则落后。

Claude的早期企业采用既与消费者使用相似(编程是两者最常见的用途),又在几个关键方面不同。特别是,通过API以编程方式访问Claude时,企业倾向于以更高的自动化程度使用Claude。这种系统的企业部署反映了AI如何重塑经济活动:提高整体生产力,但对那些现有职责已被自动化的工人的影响尚不确定。

这些模式可能造成分化。如果AI的生产力增益集中在已经繁荣的地区和自动化就绪的行业,现有的不平等可能会扩大而非缩小。如果AI自动化提高了具有组织隐性知识的工人的生产力——正如我们的一些证据所示——那么经验丰富的工人可能会看到需求上升和工资提高,而入门级工人则面临更差的劳动力市场前景1

建立在之前发布的基础上,本版指数报告在范围和透明度方面都有显著扩展。我们现在正在开源全面的API使用数据,以及我们现有的Claude.ai消费者数据(现在包括州和国家层面的地理细分),所有这些都与详细的任务级分类相交。

通过公开这些数据,我们希望其他人能够调查我们尚未考虑的问题,测试关于AI经济影响的假设,并制定基于实证证据的政策回应。

最终,变革性AI的经济影响将既由技术能力决定,也由社会做出的政策选择塑造。

历史表明,技术采用的模式并非固定不变:它们随着技术的成熟、互补创新的出现以及社会对其部署的 deliberate 选择而演变。我们今天观察到的高度集中使用的模式可能会演变为更广泛的分布——这种分布能够捕捉更多AI的生产力提升潜力,加速落后行业的创新,并实现新的经济价值创造形式。我们仍处于这场AI驱动的经济转型的早期阶段。政策制定者、商业领袖和公众现在采取的行动将塑造未来几年。我们将随着AI能力的进步继续追踪这些模式,并为驾驭我们时代最重要的经济转型之一提供实证基础。

未来展望与政策建议

基于本报告的发现,我们可以预见几种可能的未来情景,并提出相应的政策建议:

可能的未来情景

  1. 持续不均衡采用:如果当前的采用模式持续,AI生产力收益可能集中在已经发达的经济体和行业,进一步加剧全球不平等。

  2. 扩散与趋同:随着AI技术的成熟和普及,采用可能变得更加广泛,新兴经济体可能缩小与发达经济体的差距。

  3. 劳动力市场分化:具有AI互补技能的工人可能看到工资增长,而容易被自动化的工人可能面临就业挑战,导致劳动力市场内部不平等加剧。

政策建议

  1. 缩小数字鸿沟:政策制定者应投资于发展中国家的数字基础设施和AI教育,确保AI收益不被少数国家垄断。

  2. 劳动力转型支持:政府应实施再培训计划,帮助工人适应AI驱动的经济,特别关注易受自动化影响的群体。

  3. 负责任的AI监管:制定平衡创新与安全、公平的监管框架,确保AI以符合社会整体利益的方式发展。

  4. 促进企业采用:通过税收激励和其他措施,鼓励企业投资于AI技术,特别是那些能提高生产力和创造新价值的领域。

  5. 数据与上下文建设:企业需要投资于数据基础设施和组织变革,以提供AI系统有效运作所需的上下文信息。

通过这些措施,社会可以引导AI的发展方向,确保这项变革性技术能够广泛惠及各经济体和各社会群体,而非加剧现有的不平等。