AI采用不均:全球与企业的差异化发展路径

1

人工智能技术的采用速度史无前例,但其分布却呈现出显著的不均衡性。Anthropic最新发布的经济指数报告通过分析Claude.ai的使用数据和API企业部署情况,揭示了AI在全球地理分布和企业应用层面上的差异化采用模式。这些发现不仅为我们理解AI的经济影响提供了重要视角,也引发了对未来技术扩散路径和全球经济格局的思考。

AI采用速度的历史性突破

与以往任何技术不同,AI的采用速度呈现出前所未有的快节奏。仅在美国,就有40%的员工报告在工作中使用AI,这一比例在2023年仅为20%。1 这种快速采用反映了AI技术在广泛应用场景中的实用性、在现有数字基础设施上的可部署性以及无需专业培训即可使用的便捷性——只需通过打字或说话即可操作。前沿AI的持续改进很可能在这些方面进一步加速采用。

历史上,新技术需要数十年才能实现广泛采用。电力在城市电气化后花了30多年才进入农村家庭。第一台面向大众市场的个人电脑于1981年到达早期采用者手中,但又花了20年才进入美国大多数家庭。即使是快速普及的互联网也花了大约五年时间才达到AI在两年内实现的采用率。2

早期技术采用的集中模式

新技术需要时间在整个经济中扩散,消费者采用需要减少地域集中度,企业需要重组业务运营以充分利用新技术能力。企业采用,首先用于有限的任务集,然后用于更通用的应用,是重要技术传播和具有变革性经济影响的重要方式。3

简而言之,早期技术采用的标志是采用是集中的——既集中在少数地理区域,也集中在企业中的少数任务。正如本报告所记录的,21世纪的AI采用似乎遵循着类似的模式,尽管时间线比20世纪的技术扩散更短,强度也更大。

Claude.ai使用模式的演变

在本报告的第一章中,我们确定了Claude.ai在之前八个月中出现的显著使用变化,这些变化伴随着底层模型能力的改进、新产品功能的推出以及Claude消费者群体的扩大。

我们发现:

  • 教育和科学使用份额上升: 尽管Claude用于编程的使用在我们的总样本中仍占主导地位36%,但教育任务从9.3%跃升至12.4%,科学任务从6.3%增至7.2%。
  • 用户赋予Claude更多自主权: "指令性"对话(用户委托完整任务给Claude)从27%跃升至39%。我们看到编程创建增加(+4.5个百分点)和调试减少(-2.9个百分点)——这表明用户可能能够在单次交互中实现更多目标。

AI采用的地域分布

我们首次发布了Claude.ai使用数据在150多个国家和美国各州的地理分布。为了研究扩散模式,我们引入了Anthropic AI使用指数(AUI)来衡量Claude.ai的使用相对于其工作年龄人口在经济体中是否过度或代表性不足。

我们发现:

  • AUI与收入在国家间高度相关: 与以往技术一样,我们看到AI采用在地理上高度集中。新加坡和加拿大的人均使用率分别达到预期值的4.6倍和2.9倍,位居前列。相比之下,包括印度尼西亚(0.36倍)、印度(0.27倍)和尼日利亚(0.2倍)在内的新兴经济体使用Claude较少。
  • 在美国,地方经济因素塑造使用模式: 华盛顿特区引领人均使用率(3.82倍人口份额),但犹他州紧随其后(3.78倍)。我们有证据表明区域使用模式反映了当地经济的独特特征:例如,加利福尼亚州IT使用率较高,佛罗里达州金融服务使用率较高,华盛顿特区文档编辑和职业援助使用率较高。
  • 领先国家使用更加多样化: 采用率较低的国家往往看到更多编程使用,而高采用地区在教育、科学和商业应用方面表现出多样化的应用。例如,印度的编程任务占所有使用的一半以上,而全球约为三分之一。
  • 高采用国家自动化程度较低,增强使用更多: 在按国家控制任务组合后,低AUI国家更可能委托完整任务(自动化),而高采用区域倾向于更多的学习和人机迭代(增强)。

早期AI采用的不均衡地理分布引发经济收敛问题

19世纪末和20世纪初的变革性技术——广泛电气化、内燃机、室内 plumbing——不仅开启了现代经济增长的时代,还伴随着全球生活标准的巨大分歧。4

如果高采用经济体的生产力增益更大,当前的使用模式表明AI的好处可能集中在已经富裕的地区——可能加剧全球经济不平等,并逆转近几十年来 seen 的增长收敛。5

系统性的企业AI部署

在最后一章中,我们首次展示了我们第一方(1P)API流量的大部分见解,揭示了公司和开发者使用Claude完成的任务。重要的是,API用户通过编程方式访问Claude,而不是通过网络用户界面(如Claude.ai)。这展示了早期采用企业如何部署前沿AI能力。

我们发现:

  • 1P API使用虽然与Claude.ai使用相似,但在专业化方面有所不同: 1P API使用和Claude.ai使用都专注于编程任务。然而,1P API在编程和办公/行政任务上的使用率较高,而Claude.ai在教育写作任务上的使用率较高。
  • 1P API使用以自动化为主导: 77%的企业使用涉及自动化使用模式,而Claude.ai用户约为50%。这反映了API使用的编程性质。
  • 能力在塑造企业部署中似乎比成本更重要: 我们API数据中最常用的任务往往比不太频繁的任务成本更高。总体而言,我们发现价格敏感度较弱的证据。模型能力和可行地自动化给定任务的经济价值似乎在塑造企业使用模式中发挥更大作用。
  • 上下文限制了复杂使用: 我们的分析表明,为模型策划适当的上下文对于在复杂领域中AI的高影响部署很重要。这意味着对于某些公司,昂贵的数据现代化和组织投资以获取上下文信息可能是AI采用的瓶颈。

开源数据催化独立研究

与之前的报告一样,我们已经开源了底层数据以支持对AI经济效应的独立研究。这个综合数据集包括Claude.ai和1P API流量的任务级使用模式(映射到O*NET分类法以及自下而上的类别),按任务划分的协作模式细分,以及我们方法的详细文档。目前,地理使用模式仅适用于Claude.ai流量。

Claude.ai使用随时间的变化

概述

理解AI采用如何随时间演变可以帮助我们预测其经济影响——从生产力提高到劳动力变化。从2024年12月和2025年1月(从我们的第一份报告"V1")到2025年2月和3月("V2")再到我们2025年8月("V3")的最新洞察的数据,我们可以追踪在过去的八个月里,随着能力和产品功能的改进、新类型的用户采用技术以及使用变得更加复杂,AI使用如何转变。我们认为下面提出的证据表明新产品功能促成了新的工作形式,而不仅仅是加速现有任务的采用。

Claude.ai用于经济任务的使用如何变化

教育和科学任务继续相对重要性上升

尽管计算机和数学任务仍然占据整体使用的36%,但我们看到知识密集型领域的持续增长。教育指导和图书馆任务从V1的9%上升到V3的12%。生命、物理和社会科学任务从6%增加到7%。与此同时,商业和财务运营任务的相对份额从6%下降到3%,管理任务从5%下降到3%。

这种分歧表明,AI采用可能在涉及知识综合和解释的任务中扩散得特别快,与传统业务操作相比——可能是因为这些任务从Claude的推理能力中受益更多。

Figure 1.1: Claude.ai usage over time. Each panel shows the share of sampled conversations on Claude.ai associated with tasks from each SOC major group. We see notable increases in usage for scientific and educational tasks. SOC major groups ranked by usage in our first report.

新能力正在塑造使用模式

在更细粒度的层面上,我们记录了任务组成的变化,这些变化似乎与V2和V3之间推出的功能相关。例如,搜索电子源和数据库大幅增长(0.03%→0.49%),可能反映了我们3月份推出的网络搜索功能。此外,我们还看到基于互联网的研究任务上升(0.003%→0.27%),这与我们4月推出的研究模式相一致。1

我们还看到其他类型的变化。与开发教学材料相关的任务增加了1.3个百分点,从0.2%的基础增长到1.5%——增长了6倍以上,可能反映了教育工作者中采用的增长2 创建多媒体文档增加了0.4个百分点,从0.16%几乎增长到0.55%,可能是由我们Artifacts功能的持续使用推动的,用于在Claude.ai中构建传统和AI驱动的应用程序。

有趣的是,涉及创建新代码的任务份额增加了一倍多,增加了4.5个百分点(从4.1%到8.6%),而调试和错误修正任务减少了2.8个百分点(从16.1%到13.3%)——净变化7.4个百分点,向创建而非修复代码转变。这可能表明模型已经变得更加可靠,因此用户花在修复问题上的时间减少,在单次交互中花在创建东西上的时间更多。3

指令性自动化正在加速

与之前的报告一样,我们不仅跟踪人们使用Claude的内容,还跟踪他们如何在Claude.ai上与Claude协作或委托任务。

从高层次上,我们区分使用Claude的自动化增强模式:

自动化涵盖专注于任务完成的交互模式:

  • 指令性:用户给Claude一个任务,它以最少的前后互动完成
  • 反馈循环:用户自动化任务并根据需要向Claude提供反馈

增强专注于协作交互模式:

  • 学习:用户向Claude询问各种主题的信息或解释
  • 任务迭代:用户与Claude协作迭代任务
  • 验证:用户要求Claude对他们的工作提供反馈

从Claude.ai对话中抽样的指令性对话份额从2024年底V1的27%上升到V3的39%。这种增加主要来自任务迭代学习互动的减少,意味着表现出自动化使用模式的对话份额大幅增加——在短短八个月内显著增加。这是第一份自动化使用超过增强使用的报告。

Figure 1.2: Collaboration mode frequencies across Anthropic Economic Index Reports. The left panel calculates the share of conversations exhibiting either automation or augmentation forms of use. The right panel breaks this out by collaboration mode. Claude tends to be used in more automated ways over time, driven primarily by an increase in directive use.

一种解释是这是模型能力提高的结果。随着模型在预测用户需求和首次尝试产生高质量输出方面变得越来越好,用户可能需要更少的后续改进。指令性使用的增加也可能表明用户越来越信任将完整任务委托给AI,这是一种通过实践学习的形式。4

指令性使用的增长是归因于改进的模型能力还是通过实践学习,可能预示着非常不同的劳动力市场影响。如果更先进的模型只是扩展了自动化任务的集合,那么执行此类任务的工人面临被取代的风险就会增加。然而,如果指令性使用的上升反映了通过实践学习,那么最能够适应新AI驱动工作流程的工人可能会看到更大的需求和更高的工资。换句话说,AI可能对某些工人的好处大于其他人:对于那些适应技术变革能力最强的工人,可能导致更高的工资,即使那些适应能力较低的工人面临工作中断。5 这将是未来研究的重要领域。

全球和美国各地的Claude使用情况

概述

AI在哪里首先被采用以及如何使用将塑造全球经济结果。通过分析150多个国家和美国各州的Claude使用模式,我们发现了三个关键动态:早期采用者在哪里,他们用AI做什么,以及随着采用成熟使用如何演变。这些地理模式提供了关于AI经济扩散的真实世界证据,帮助跟踪不同地区在AI采用上是趋同还是分化,并揭示当地经济特征如何塑造技术部署。

我们的数据依赖于对100万次Claude.ai对话的隐私保护1分析2,证实了我们的某些预期,同时也挑战了其他预期。美国在总使用量上占主导地位(21.6%),这并不令人惊讶,考虑到其规模和高收入。但即使调整工作年龄人口规模后,较高收入国家往往有较高的使用率。例如,新加坡的使用率是其工作年龄人口预期的4.5倍,而全球大片地区的使用量最小。有趣的是,在美国,华盛顿特区和犹他州的人均使用率超过了加利福尼亚州。

我们还观察到随着人均采用的深入,AI用例的变化。人均AI采用率较低的国家主要集中在编程任务上——印度所有使用中超过一半,而全球约为三分之一。随着采用成熟,使用多样化,对教育、科学和业务运营的重视程度不断提高。

更引人注目的是:成熟市场倾向于更协作地使用AI,而新兴市场更可能将完整任务委托给它——这可能反映了不同发展阶段经济体如何部署AI的差异。我们的数据提供了这些地理模式的窗口,未来将使我们能够跟踪这些采用差距是缩小、扩大还是随时间变化。

全球Claude扩散

美国在总Claude使用量上最高

Claude总体采用在地理上高度集中。从全球总使用量来看,美国占比最高(21.6%),其次是使用量显著较低的国家(印度7.2%,巴西3.7%,见图2.1)。然而,这种集中受到各国人口规模的影响3——较大的国家可能纯粹因为人口规模而有较大的使用份额。

Figure 2.1: Leading countries in terms of global Claude.ai usage share. The data includes Claude.ai Free and Pro conversations.

Claude的人均使用集中在技术先进国家

为了考虑人口规模的差异,我们分析了按工作年龄人口调整的使用情况,引入了一个名为Anthropic AI使用指数(AUI)的新度量:对于每个地理区域,我们计算其Claude使用份额及其工作年龄人口(15-64岁)的份额。然后我们通过除以这些份额来计算AUI:

Anthropic AI Usage Index equation

这个指数揭示了各国相对于其工作年龄人口是更多还是更少地使用Claude。AUI > 1的地区在调整人口后使用率高于预期,而AUI < 1的地区使用率低于预期。

结果显示在小技术先进经济体中存在显著的集中模式。以色列引领全球人均Claude使用,Anthropic AI使用指数为7——意味着其工作年龄人口使用Claude的频率是基于其预期的7倍。新加坡以4.57位居第二,澳大利亚(4.10)、新西兰(4.05)和韩国(3.73)完成了人均Claude使用的前五名国家。

Figure 2.2: Small, technologically advanced countries are leading in Claude adoption per capita. The figure shows the top 20 countries based on the Anthropic AI Usage Index. We only include countries with at least 200 observations in our sample for this figure because of the uncertainty of the measure for low-usage countries in our random sample. The underlying data includes Claude.ai Free and Pro usage.

人均使用的领先和新兴国家

这种在人口有限的技术先进经济体中的集中反映了它们作为技术先驱的既定模式。例如,以色列和新加坡在全球创新指数中排名都很高——这是衡量全球不同经济体创新能力的指标——表明对信息技术的总体投资使经济体能够快速采用前沿AI。总体而言,这些经济体可以利用其受过教育的劳动力、强大的数字基础设施和创新友好的政策,为AI创造有利条件。

值得注意的是主要发达经济体在Claude使用中的地位。美国(3.62)在人均采用方面领先国家之列,加拿大(2.91)和英国(2.67)的采用率相对于其人口较高但较为温和。其他主要经济体采用率较低,包括法国1.94、日本1.86和德国1.84。

与此同时,许多中低收入经济体Claude使用量极少,非洲、拉丁美洲和部分亚洲的许多国家Claude采用率低于基于其工作年龄人口的预期。这包括玻利维亚(0.48)、印度尼西亚(0.36)、印度(0.27)和尼日利亚(0.2)。

这些经济体在使用上的差异反映了收入差异。我们看到Claude采用与人均国内生产总值之间存在强烈的正相关关系(见图2.4),人均GDP每增加1%,人均Claude使用率增加0.7%。

Figure 2.4: Claude usage per capita is positively correlated with income per capita across countries. We only include countries with at least 200 observations in our sample for this figure because of the uncertainty of the measure for low-usage countries in our random sample. Axes are on a log scale, highlighting a power law distribution. Each country is represented by its 3-letter ISO code.

Claude使用的差异可能反映了多种因素的汇合,其中一些与收入相关:

  • 数字基础设施: 高使用率国家通常拥有强大的互联网连接和云计算访问能力,这是访问AI助手所必需的。
  • 经济结构: 如本报告和先前报告所记录,Claude能力非常适合知识工作者典型的各种任务。发达经济体从事此类角色的劳动力比例往往高于制造业就业份额较大的低收入经济体。
  • 监管环境: 政府在鼓励跨行业使用AI以及监管技术的严格程度上有所不同。
  • 认知和获取渠道: 与硅谷和AI研究社区联系更紧密的国家可能对Claude有更高的认知度和获取渠道。
  • 信任和舒适度: 公众对AI信任的看法在不同 国家之间存在显著差异。

美国各地的Claude扩散

在美国,加利福尼亚州以25.3%的使用率遥遥领先。其他主要科技中心如纽约(9.3%)、德克萨斯州(6.7%)和弗吉尼亚州(4.0%)也排名靠前。虽然没有调整人口,但我们怀疑这些强劲的采用数字部分反映了技术中心的快速采用——这与历史上具有经济影响力的技术往往如何扩散的叙事一致。

然而,当我们调整每个州的人口规模时,情况变得更加复杂。令人惊讶的是,哥伦比亚特区领先,Anthropic AI使用指数为3.82,表明哥伦比亚特区的Claude使用率是其国家工作年龄人口份额的3.82倍。紧随其后的是犹他州(3.78),明显领先于加利福尼亚州(2.13)、纽约州(1.58)和弗吉尼亚州(1.57)。7

Figure 2.5: Leading US states in terms of Claude adoption per working-age capita include the District of Columbia, Utah, California, New York and Virginia. The figure shows the top 20 US states based on the Anthropic AI Usage Index. We only include states with at least 100 observations in our sample for this figure because of the uncertainty of the measure for low-usage states in our random sample. The underlying data includes Claude.ai Free and Pro usage.

我们在全球层面观察到较弱的关联,在美国各州之间,Claude采用与人均收入之间存在类似的但较弱的关联。收入差异只能解释跨州采用率差异的不到一半。尽管这种相关性较弱,但我们发现Claude采用随收入增长得更快:人均州GDP每增加1%,AI使用指数增加1.8%。

Figure 2.6: Claude usage varies across US states, with high per-capita usage in the West Coast, but also higher usage in Nevada, Utah, Colorado, Missouri, and Virginia. The different tiers reflect a US state's position within the US distribution of the Anthropic AI Usage Index as defined in this chapter.

各国任务使用模式

我们观察到不同国家Claude使用方式存在显著差异。与过去的报告一样,我们使用两种不同的方法分析这些趋势。首先,我们将对话根据ONET分类为任务,ONET是美国将特定任务映射到职业和职业组的分类法(例如,涉及软件调试的任务将属于计算机和数学职业组)。

其次,我们使用Claude构建Claude.ai用户请求的自下而上分类法,这提供了不适合现有分类法的使用模式洞察。例如,请求集群"帮助撰写和改进求职信"(最低级别)流入更高级别的集群"帮助处理求职申请、简历和职业文件"(中级),然后流入集群"帮助处理求职申请、简历和职业发展"(高级)。这两种互补的方法使我们能够既报告与标准劳动统计数据一致的结果,又能够捕获标准分类法可能遗漏的任务。

较高人均Claude使用与更多样化的任务使用相关

当分析在最高级别汇总的O*NET任务(根据它们所属的标准职业分类职业组)时,我们注意到各国之间存在强烈差异。虽然整体模式很嘈杂——特别是对于观察值较少的国家——图2.7表明,随着我们从较低到较高的人均Claude采用进展,使用从计算机和数学职业组的任务(如编程)转向更多样化的任务,如教育、办公和行政用途以及艺术领域。我们还看到生命、物理和社会科学的使用增加。

Figure 2.7: As we move from lower to higher adoption countries, Claude usage appears to shift away from programming-dominant tasks to a more diverse mix of tasks, though the overall pattern is noisy.This figure shows the relationship between the Anthropic AI Usage Index and the most frequent Standard Occupation Classification (SOC) occupation groups. Each panel shows a different SOC group. SOC share is based on how many O*NET tasks in a given geography fall into a given SOC group. The color indicates which AUI tier a country falls into. The bubble size indicates the usage count for each country. We only include countries with at least 200 observations in our sample for this figure because of the uncertainty of the measure for low-usage countries in our random sample. The regression weights every country equally.

当我们查看自下而上的请求分类法时,也出现了国家特有的特征。8 例如,考虑美国、巴西、越南和印度,它们代表了在给定Anthropic AI使用指数级别内总使用量最高的国家。与美国平均水平相比,美国用户不成比例地使用Claude进行家庭管理、搜索工作和医疗指导。相比之下,巴西的Claude用户在翻译和法律服务方面的使用率相对较高。越南的过度请求主要与软件开发和教育相关,而印度的过度请求几乎完全专注于软件开发。这可能反映了专业化:巴西是司法系统中AI的早期采用者,而印度拥有庞大的信息技术部门。

Figure 2.8: Overrepresented request clusters for the United States, Brazil, Vietnam and India. A request is overrepresented in a country when the share of conversations containing that request is higher for that country than globally. For this figure, we focus on request clusters at the middle level of granularity, i.e. more aggregated than the lowest level request clusters, but less aggregated than the highest level request clusters. Only includes requests with at least 1% frequency globally and for that country.

在所有国家中,软件开发 emerges as Claude最常见的用途。为什么开发人员任务持续主导整体Claude使用模式?几个因素可能促成这种效应:

  • 模型-任务匹配: Claude是非常强大的编码模型,可以轻松部署在代码生成、调试和技术问题解决任务中。
  • 开发者接受度: 开发者社区迅速接受新工具,这种使用通过他们的社交和专业网络扩散。
  • 低组织障碍: 个体开发者通常可以采用Claude而无需复杂的批准流程——与医疗用例相比。

美国各地的任务使用模式

在本节中,我们探索美国各州Claude使用的模式,进一步深入了解当地经济条件如何塑造使用模式。如上所述,美国各州之间Anthropic AI使用指数的差异只能解释各州收入差异不到一半。这表明其他地区差异——包括Claude能力与当地劳动力职业结构的兼容性——在决定为什么某些州的使用比其他州更集中方面发挥更大作用。

在许多州,我们有证据表明AI的本地使用模式与当地经济的独特特征一致。当我们分析每个使用级别的前几个州——领先级别为加利福尼亚州,中上级别为德克萨斯州,中下级别为佛罗里达州,新兴级别为南卡罗来纳州——时,我们在自下而上的请求分类法中看到强烈差异(见图2.9)。

例如,加利福尼亚州在IT相关请求、数字营销和翻译方面的不成比例使用,可能反映了其科技行业和语言多样化的人口。加利福尼亚州在基本数字任务方面的请求也异常频繁,这可能代表模型能力测试或滥用。佛罗里达州在商业建议和健身方面的不成比例使用,可能与作为金融中心的地位以及相对较低的税率和适合户外活动的温暖气候有关。

Figure 2.9: Overrepresented request categories for California, Texas, Florida and South Carolina. A request is overrepresented in a state when the share of conversations containing that request is higher for that state than in the US as a whole. For this figure, we focus on request clusters at the middle level of granularity, i.e. more aggregated than the lowest level request clusters, but less aggregated than the highest level request clusters. Only includes requests with at least 1% frequency in the United States and for that state.

在美国,哥伦比亚特区在人均Claude使用方面领先,在O*NET任务分类和自下而上分类中,文档编辑、信息提供和求职申请方面不成比例(见图2.10)。例如,求职申请帮助在哥伦比亚特区比在美国整体常见1.84倍。我们的交互式仪表板允许每个人探索美国各州之间完整的变化和模式范围。

Figure 2.10: Washington, DC has the highest Claude usage per capita, with disproportionate tasks and requests focusing on document editing, information provision and job applications. O*NET tasks refer to tasks in the O*NET taxonomy. Requests are based on the bottom-up request categories that describe what requests users make of Claude. A task or request is overrepresented in a state when the share of conversations containing that task or request is higher for that state than in the US as a whole. For this figure, we focus on request clusters at the middle level of granularity. Only includes requests with at least 1% frequency in the United States and for that state.

地理模式中的人机协作

虽然前面的部分研究了人们使用Claude的内容,但方式上出现的模式同样具有揭示性。在这里,我们使用与第一章相同的增强和自动化协作模式。

各国有不同的任务组合,这意味着它们专注于不同的经济任务,这可能在一定程度上解释自动化模式的差异。在本节中,我们研究低和高人均采用经济体之间的自动化使用是否系统性地不同——即使控制任务组合的差异。9

我们发现,即使控制了国家的任务组合,来自不同国家的用户在自主委托与协作交互方面显示出显著不同的偏好。随着人均Claude使用的增加,国家从以自动化为中心转向以增强为中心的使用。这在某种程度上是反直觉的,因为我们在控制不同国家更多样化的任务组成。我们推测文化和经济因素可能影响自动化份额,或者每个国家的早期采用者倾向于以更汽车化的方式使用AI——但这里需要更多研究。

Figure 2.11: Countries with higher Anthropic AI Usage Index tend to use Claude in a more collaborative manner (augmentation), rather than have it operate independently (automation). This figure shows the relationship between the Anthropic AI Usage Index and the automation share in a given country. We plot the relationship after accounting for a geography's task mix, thus we show the regression residuals. We only include countries with at least 200 observations in our sample for this figure because of the uncertainty of the measure for low-usage countries in our random sample. Each country is represented by its 3-letter ISO code.

企业Claude的API部署

概述

前沿AI能力是否能让我们更高效、重塑劳动力市场并加速增长将取决于企业何时以及如何选择部署AI。即使企业认识到AI的潜力,有利可图地采用它可能需要重组生产过程、培训新工人和其他沉没成本投资,以促进有效部署。1

为了理解企业的AI采用模式,我们转向一个新的数据来源:Anthropic的第一方(1P)API客户——再次依赖隐私保护方法2 我们的API允许客户将Claude直接集成到自己的产品和应用程序中,并按使用的token收费,而不是采用固定订阅费。这与我们前两章关注的Claude.ai代表了 fundamentally 不同的产品体验。

制度惯性以及采用的固定成本表明,企业AI使用的早期例子很可能集中在部署容易、能力强大以及采用经济收益高的专业任务中。

事实上,我们在本章呈现的数据中看到了这些方面的证据。我们的分析揭示了几个模式:

  • 企业以类似但更专业的方式使用Claude: 企业将使用集中在AI部署非常适合程序化访问的任务上,如编程或行政任务。与Claude.ai用户相比,企业使用Claude进行教育或创造性任务较少,整体自动化程度更高。
  • API客户倾向于选择更高成本的任务: 尽管任务成本差异很大,但最昂贵的任务往往有更高的使用率,这表明模型能力、部署的难易程度和自动化的经济价值比交互本身的成本更能决定采用。
  • 需要适当的上下文信息进行复杂部署: 我们发现了企业AI有用性的一个重要潜在瓶颈的证据。使用Claude处理复杂任务的API客户倾向于为Claude提供长输入。这可能代表对某些重要任务的企业级广泛部署的障碍,这些任务依赖于尚未集中或数字化的分散上下文。纠正这一瓶颈可能需要公司重组其组织、投资新的数据基础设施并集中信息以实现有效的模型部署。

API客户中的专业化使用

为了分析API流量,我们应用了前几章相同的隐私保护分类方法——将匿名API转录本按O*NET任务分类并进入自下而上的分类法。出现的模式表明企业使用集中在特别适合自动化的专业任务中。

总体而言,软件开发主导了这一领域。在前15个使用集群中——约占所有API流量的一半——大多数与编码和开发任务相关。调试Web应用程序和解决技术问题各占约6%的使用量,而构建专业业务软件代表了另一个重要部分。值得注意的是,约5%的API流量专门用于开发和评估AI系统本身(图3.2)。

但并非所有API使用都用于编码。API客户还部署Claude来创建营销材料(4.7%)和处理业务及招聘数据(1.9%)。这两个类别表明AI不仅用于直接生产商品和服务,还用于人才招聘和外部沟通。

Figure 3.2: Bottom-Up taxonomy of Claude usage among sampled 1P API transcripts. Using privacy-preserving methods we classified 1P API transcripts into a bottom-up taxonomy reflective of underlying usage. This figure reports the leading use cases at the broadest level of this taxonomy.

O*NET分类使这些模式更加清晰。不到一半的所有API流量映射到计算机和数学任务——比Claude.ai使用率高8个多百分点。办公和行政任务以约10%的转录本位居第二,反映了它们对自动化的适用性。

另一方面,在Claude.ai上突出的许多互动性强的任务在API使用中的份额要小得多:教育和图书馆任务从12.3%下降到3.6%,而艺术和娱乐从8.2%下降到5.2%。

然而,在许多情况下,API和Claude.ai之间的职业类别相当接近,这表明在许多情况下,底层模型能力而非特定的产品表面推动了采用。

Figure 3.3: Leading Occupational Categories by Overall Usage: Claude.ai vs 1P API. After determining usage shares for tasks, we calculate the share of traffic from Claude.ai and 1P API customers assigned to top-level occupations in the O*NET taxonomy. For example, this figure shows that 44% of API traffic in our sample was matched to a task characteristic of a Computer and Mathematical occupation.

职业分段与任务专业化

尽管服务于具有不同界面的不同用户,但API和Claude.ai usage在任务上遵循类似的幂律分布。在Claude.ai对话中,底部80%的任务类别仅占12.7%的使用量;对于API客户,则更加集中,为10.5%(图3.4)。这些极端的集中度(基尼系数5为0.84和0.86)揭示了AI-任务匹配的巨大变化——最佳匹配任务的使用量比不匹配的任务高出几个数量级。

考虑到不同的用户群和用例,这两个平台之间的相似性尤其引人注目。两者都汇聚到相似的集中水平,表明AI能力与相关经济任务之间存在共同的匹配过程。

像代码生成这样的任务之所以占主导地位,是因为它们处于模型能力出色、部署障碍最小且员工可以快速采用新技术的最佳位置。很少使用的任务的尾部可能反映了几个因素。6 例如,有些任务本身就不太常见——调试软件的频率远高于协商马戏团合同。极端的集中度也暗示了O-Ring7力量的潜在作用:如果一个任务需要Claude无法处理的推理级别、公司无法访问的内部数据或不存在的监管批准,任何单一障碍都可能阻止采用。

Figure 3.4: Visualizing concentration of usage among a small number of tasks: Claude.ai versus 1P API. The left panel of this chart calculates Lorenz curves across O*NET tasks for both our Claude.ai and 1P API samples. The highlighted points on the curves indicate how much overall usage the bottom 80% of tasks account for. The right panel plots task rank against task usage share for tasks representing at least 0.1% of overall usage in our samples. Zipf's law, in which the coefficient of the best-fit-line is equal to -1, occurs with some regularity in various economic settings.

API转录本中的自动化与增强

API和Claude.ai使用之间最明显的区别在于人类和AI如何划分工作。当企业将Claude嵌入到他们的应用程序中时,他们主要是委托单个任务而不是与模型协作迭代。

在我们的数据中,77%的API转录本显示自动化模式(特别是完整任务委托),而增强(例如协作改进和学习)仅为12%。基于Claude.ai对话的样本,自动化和增强的分配几乎相等。跨经济任务来看,通过API的Claude自动化程度甚至更加明显:97%的任务在API使用中显示出自动化主导模式,而在Claude.ai上仅为47%(图3.6)。

这在直观上是合理的。程序化API访问自然适合自动化:企业提供上下文,Claude执行任务,输出直接流向最终用户或下游系统。

这种模式反映了具有经济影响力的技术如何变得具有变革性:嵌入到让工人无需专业技能就能获取生产力的系统中。虽然增强和自动化方法都能增强人类能力,但系统级自动化可能会在整个经济中带来更大的生产力增益,以及劳动力市场的更重大变化:完全自动化某些任务,改变各种任务对不同工作的重要性,甚至产生全新的工作形式。

Figure 3.5: Automation versus augmentation collaboration modes across O*NET tasks: Claude.ai versus 1P API. This figure reports the share of Claude.ai conversations and 1P API transcripts that exhibit automation or augmentation patterns of usage for each O*NET task. Automation and augmentation modes are defined in Chapter 1. When for privacy-preserving reasons we do not observe usage shares for a particular collaboration mode we give that category a value of 0% in this figure. Automation dominance is defined as a task having a greater observed share of automation usage. Likewise for augmentation dominance.

Claude做的越多,Claude需要知道的越多

为什么我们的API客户在某些任务上使用Claude比其他任务多?除了基本的模型能力外,一个潜在的重要解释是,对于某些任务来说,成功部署所需的信息比其他任务更容易提供。

例如,如果目标是让Claude重构复杂软件开发项目中的一个模块,Claude可能需要阅读——至少探索——整个代码库以了解需要进行哪些更改以及在哪里进行。对于具有集中代码库的软件开发,原则上访问这些信息是简单的。

对于其他任务,适当的上下文可能不容易获得,或者可能难以访问。例如,要求Claude为关键客户开发销售策略可能需要Claude不仅访问客户关系管理系统中包含的信息,还需要访问位于客户经理、营销人员和外部联系人头脑中的隐性知识。在其他条件相同的情况下,缺乏此类上下文信息会使Claude能力降低。

我们通过查看API输入长度(即提供给Claude的上下文)和Claude平均输出长度(即模型响应产生的内容)之间的关系来探索这个问题。8

对于我们样本中的每个O*NET任务,我们计算相关API转录本的平均输入和输出长度。然后将这些值除以我们样本中所有任务的平均长度。这为每个任务生成了一个输入token指数和输出token指数。例如,1.5的指数值意味着与该任务相关的API转录本比我们样本中所有任务的平均值长50%。

不同任务之间的Claude API输出长度存在很大差异。例如,输出长度处于第90百分位的任务比第10百分位的任务长4倍以上。表3.1提供了示例O*NET任务以及Claude Sonnet 4对该分布部分任务的总结。9 图3.7显示输出长度在不同职业类别中也系统地变化。

Table 3.1: Example O*NET tasks with shorter and longer output lengths with Claude's summaries. For each O*NET task matched to 1P API traffic we calculate an output token index: Dividing the average output length across transcripts associated with that task by the average (unweighted) value across all tasks in our sample. Claude was prompted to identify tasks at the 10th, 50th, and 90th percentile of the output token index distribution with the minimal guidance:

Figure 3.6: Average output token index across O*NET tasks among leading occupational categories. For each O*NET task matched to 1P API traffic we calculate an output token index: Dividing the average output length across transcripts associated with that task by the average (unweighted) value across all tasks in our sample. We then average across tasks for a given top-level occupational categories in the O*NET taxonomy for top use occupational groups. 'All Other' combines remaining occupational groups into a single category.

从Claude对任务的评估中突出的是,较长的输出任务往往代表越来越复杂的使用。当然,输出长度并不捕获任务复杂性的所有维度,但它似乎是一个合理、易于测量的代理。

由于API客户按边际价格为输入token和输出token付费,他们有动力优化模型提示以最小化使用Claude时的输入和输出token。反过来,Claude产生的输出与输入长度之间的任何系统性关系部分捕获了在复杂任务中部署Claude的底层上下文约束。换句话说,API客户有动力只向Claude提供完成目标所需的最少上下文,不多不少。因此,我们了解到具有不同输出长度的任务的上下文要求。

跨任务来看,我们看到API客户向Claude提供的上下文量与Claude实际产生量之间存在非常稳定的关系。跨经济任务,输入长度每增加1%,输出长度增加不到比例的0.38%(图3.7)。0.38的弹性表明,在这些经济有用的任务中,将更长的上下文输入转换为更长的输出存在强烈的边际收益递减。10

Figure 3.7: Scatter plot of output token index and input token index across O*NET Tasks. For each O*NET task matched to 1P API traffic we calculate an output token index: Dividing the average output length across transcripts associated with that task by the average (unweighted) value across all tasks in our sample. The input token index is constructed similarly. The elasticity of 0.38 implies that each 1% increase in the input token index is associated with a 0.38% increase in the output token index.

其结果是,为复杂任务部署AI可能更多地受到信息获取的限制而非底层模型能力。无法有效收集和组织上下文数据的公司可能在复杂的AI部署方面遇到困难,这可能是更广泛企业采用的潜在瓶颈——特别是对于职业和行业中隐性、分散知识对业务运营至关重要的领域。

每个任务成本和任务间的替代模式

API客户按token付费,这为为不同任务部署Claude创造了成本差异。更复杂的任务往往成本更高,因为它们的输入和输出token计数更高。这种差异帮助我们探索成本是否是决定企业选择使用Claude自动化哪些任务的主要因素。

数据表明并非如此,至少相对而言。11 例如,典型于计算机和数学职业的任务比销售相关任务成本高50%以上,但在使用中占主导地位。12 总体而言,我们发现成本和使用之间存在正相关:较高成本的任务往往有较高的使用率(图3.9)。

成本和使用之间的正相关表明成本在企业AI部署模式中作用不大。相反,企业可能优先在模型能力强大且Claude驱动的自动化产生的经济价值超过API成本的领域使用。

Figure 3.8: API cost per task and usage share across occupational categories. For each O*NET task matched to 1P API traffic we calculate an API cost index: Dividing the average API cost across transcripts associated with that task by the average (unweighted) value across all tasks in our sample. This figure plots the average API cost index across tasks in a given occupational category against usage share. The estimated elasticity of 3 implies that each 1% increase in the average cost of a task is associated with a 3% increase in prevalence in our sample.

虽然这种正相关总体上成立,但我们接下来询问在其他相似但成本更高的任务中,对Claude能力的需求是否较低。考虑到这应被视为初步探索,我们确实发现了这一点。

控制任务特征后,我们发现每个1%的成本增加与我们API转录本样本中的使用频率减少0.29%相关(图3.10)。13 虽然与价格下降导致需求增加的标准经济理论一致,但这种估计表明成本降低带来的使用增加有限。根据这一估计,特定任务成本降低10%只会使使用量增加约3%。

除了使用Claude进行特定任务的成本外,其他因素似乎对使用模式更重要。

Figure 3.9: Scatter plot of API cost per task and usage share controlling for task characteristics. For each O*NET task matched to 1P API traffic we calculate an API cost index: Dividing the average API cost across transcripts associated with that task by the average (unweighted) value across all tasks in our sample. We then restrict the sample to tasks appearing in both our 1P API and Claude.ai samples. This partial scatter plot controls for the following task-level characteristics: fixed effects for occupational category, collaboration mode share from Claude.ai, and indicators for whether a given collaboration mode was censored for privacy-preserving reasons in the Claude.ai sample. The estimated elasticity of -0.29 implies that each 1% increase in the API cost index for a given task is associated with a 0.29% decrease in prevalence in our sample, after controlling for task characteristics.

结论

我们的API数据捕捉了企业AI采用的早期阶段:高度集中、以自动化为导向,并且令人惊讶地缺乏价格敏感性(至少在我们API客户使用Claude的任务中)。

77%的自动化率表明企业使用Claude来委托任务,而不是作为协作工具。这种系统化的部署很可能是AI在更广泛的经济中带来生产力增益的重要渠道。鉴于企业部署中明显的自动化模式,这也可能带来劳动力市场的中断,可能取代那些角色最容易自动化的工人。

但对劳动力市场的影响并不完全清楚。如上所述,复杂任务需要不成比例的更多上下文。此类信息可能分散在组织中。在这种情况下,拥有关于业务运营隐性知识的工人可能会受益,作为复杂AI驱动自动化的补充。14 理解AI采用的不均衡劳动力市场影响是未来研究的重要领域。

希望有效采用AI的企业可能需要重组组织和维护前沿系统所依赖的信息的方式。今天狭隘的、以自动化为主导的采用是否会发展为更广泛的部署,很可能会决定AI的未来经济影响。

结论性思考

Anthropic经济指数报告的第三次迭代捕捉了AI在关键时刻的采用情况。Claude和其他前沿AI系统的现有能力已经准备好改变经济活动,因为这项技术的适用范围非常广泛。快速发展的AI能力只会强化巨大变革即将到来的结论。

然而,早期的AI采用却异常不均衡。使用目前集中在少数任务中,地理差异很大,与收入高度相关——特别是在国家之间。这种集中反映了AI能力、部署难易程度和经济价值一致的地方:编程和数据分析使用率高,而需要分散上下文或复杂监管导航的任务则落后。

Claude的早期企业采用既类似于消费者使用(编程是两者最常见的用途),又在几个重要方面有所不同。特别是,通过API以编程方式访问Claude时,企业倾向于以更高的自动化程度使用Claude。这种系统化的企业部署反映了AI如何准备重塑经济活动:提高整体生产力,但对现有责任被自动化的工人的影响不确定。

这些模式存在造成分化的风险。如果AI的生产力增益集中在已经繁荣的地区和自动化就绪的行业,现有的不平等可能会扩大而非缩小。如果AI自动化提高了具有组织隐性知识的工人的生产力——正如我们的一些证据所示——那么即使入门级工人面临更差的劳动力市场前景,经验丰富的工人也可能看到需求上升和工资增长。1

在我们之前的发布基础上,这次指数报告的迭代在范围和透明度方面都有显著扩展。我们现在开源了全面的API使用数据以及我们现有的Claude.ai消费者数据(现在包括州和国家级别的地理细分),所有这些都与详细的任务级分类相交。

通过公开这些数据,我们希望其他人能够调查我们尚未考虑的问题,测试关于AI经济影响的假设,并制定基于实证证据的政策回应。

最终,变革性AI的经济影响将受到技术能力与社会政策选择同等程度的塑造。

历史表明,技术采用的模式并非固定不变:它们随着技术的成熟、互补创新的出现以及社会对其部署的有意选择而转变。我们今天观察到的集中使用模式可能演变为更广泛的分布——这种分布能捕捉到AI更多的生产力提升潜力,加速落后行业的创新,并实现新的经济价值创造形式。我们仍处于AI驱动经济转型的早期阶段。政策制定者、商业领袖和公众现在采取的行动将塑造未来的岁月。我们将随着AI能力的进步继续跟踪这些模式,并为驾驭我们这个时代最重要的经济转型之一提供实证基础。