最新 Anthropic 人类经济指数报告:AI 如何重塑经济?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
最新 Anthropic 人类经济指数报告:AI 如何重塑经济?
8881点击    2026-01-21 16:09

最新 Anthropic 人类经济指数报告:AI 如何重塑经济?


AI 真的能提升工作效率吗?


它最擅长辅助哪些类型的任务?


又会如何改变人们的职业性质?


......


Anthropic 最近持续监测现实世界中的 AI 实际使用情况,目的就是为了回答这类核心问题。


他们采用了隐私保护的分析方法,研究 Claude.ai(主要反映消费者使用情况)和第一方 API(主要反映企业用户使用情况)上的对话内容。


此前的报告里,做过这些方向的分析:按职业和薪资水平划分 AI 任务类型、深入探讨软件开发领域的 AI 应用,以及对比不同国家和美国各州的 AI 使用差异。


现在,我们为经济指数新增了一层细节维度。


第四份报告里,Anthropic 提出「经济基本要素」(economic primitives)概念:这是一组共五个简单的基础指标,用来长期追踪 Claude 带来的经济影响。


首批基本要素包括:任务复杂度、技能水平、用途(工作、教育或个人)、AI自主性和任务成功度。让 Claude 针对本次报告样本中的每一段对话回答一组标准化问题,从而得出这些基本要素。


这些基本要素不仅能作为 AI 潜在经济影响的领先指标,还能帮助解答 AI 如何改变工作这类更复杂的问题。


最新报告分析了 2025 年 11 月的对话样本(主要使用 Claude Sonnet 4.5 模型),通过这些基本要素探讨了一系列此前无法回答的问题:比如 Claude 在更复杂任务上的任务成功率变化,以及目前 Claude 的使用是否预示着很多工作会出现净去技能化效应(即整体技能要求降低的影响)。


完整报告已经放到了特工宇宙 ima 知识库中,可以在线查看/免费下载/AI 问答。


最新 Anthropic 人类经济指数报告:AI 如何重塑经济?


以下是报告结果的总结。


把经济基本要素用在了三个层面的分析上:


先是单个任务,再到职业,最后是这些变化可能产生的整体影响(关于其中的完整方法论,包括如何验证基本要素准确性的细节,详见完整报告第二章)。


任务


「AI 能给哪些任务提效?效果到底有多明显?」


我们发现,任务越复杂,Claude 带来的效率提升越明显。


这里的复杂度用 Claude 估算的「理解对话输入所需教育年限」来衡量:


在Claude.ai 平台上,高中水平(12 年教育)的任务完成速度达到原来的 9 倍,大学水平(16 年教育)的任务则达到 12 倍(API 版本的提升幅度还要更大。)


这些结果说明,AI 当前的生产力红利主要集中在需要较高人力资本的任务上,而这和白领专业人士更常使用 AI 的证据完全吻合。


调整任务成功率后,同样的趋势依然存在,只是强度有所减弱。Claude 完成需大学学历的任务时,成功率为 66%;而完成高中以下学历要求的任务时,成功率达 70%。这种差异虽减弱了整体效果,但并未完全抵消核心规律:


任务复杂度越高,Claude 带来的加速提升越明显,且这个提升幅度超过了复杂度对成功率的负面影响。


最新 Anthropic 人类经济指数报告:AI 如何重塑经济?

效率提升和成功率与人类受教育年限的关系。左图的散点图展示了效率提升与人类受教育年限之间的关系(O*NET 任务级别数据)。虚线为最佳拟合线。右图展示了成功率与受教育年限的关系。


「Claude 能支持多长时间的任务?」


METR 关于 AI 任务处理跨度的评估显示,任务越长,AI 模型越难完成。


不过,随着模型性能提升,AI 能处理的时长正稳步增长。


如今这一指标已成为衡量 AI 进步的关键标志。


我们用经济基本要素补充了 METR 的分析结果。


下图展示了 Claude 在任务层面的成功率,对比的是人类完成相同任务所需的时间,数据同时来自 Claude.ai 平台和我们的 API。


最新 Anthropic 人类经济指数报告:AI 如何重塑经济?

任务成功率与人类独立完成所需时间的关系。该图展示了任务成功率(%)与人类独立完成任务所需时间之间的关系,均基于 O*NET 任务级别数据,并按平台划分。虚线为线性回归拟合线。


METR的基准测试显示,Claude Sonnet 4.5(即我们分析中使用的模型)在 2 小时时长的任务上,成功率达到 50%。但通过我们自己的API数据发现,Claude 在时长几乎翻倍(约 3.5 小时)的任务上,成功率同样是 50%;而在 Claude.ai 平台上,任务时长更是长得多,大约是 19 小时。


不过这些数据的差异可能没看起来那么矛盾,因为我们和 METR 的方法论存在几个关键不同点:


在我们的样本中,用户可以将复杂任务拆分成更小的步骤,形成反馈循环让 Claude 调整方向;而且我们的样本并非固定任务集,而是存在一种选择偏差:用户会主动选择那些他们更有信心能通过 Claude 完成的任务。


我们的分析显示,Claude 的有效时间范围可能与采用固定任务集的研究所得出的结果有所不同。我们将在后续报告中持续追踪这一指标。


「Claude 在不同国家的应用场景和任务性质有何差异?」


我们发现,Claude 在不同经济发展水平的国家里,被用来做的事情差异很大。


人均 GDP 高的国家,人们用它处理工作或私人事务的频率更高;而经济水平较低的国家,则更多把它用于课程作业。


这符合一个简单的「采用曲线」规律:低收入国家的 AI 使用中,教育占比很高,工作用途相对有限;随着国家逐渐富裕,AI 的用途会向更多私人场景扩展。


我们的研究结果和微软近期的发现不谋而合:


教育场景的 AI 使用率和人均收入成反比,休闲场景则正好相反:收入越高,AI 用得越多。


基于这个规律,我们最近和卢旺达政府、技术培训提供商 ALX 展开了合作项目:参与者先从 AI 素养课程入门,我们还在试点一项计划:给部分毕业生提供为期一年的 Claude Pro 使用权,帮他们把 AI 应用从纯教育场景,拓展到更广泛的领域中去。


最新 Anthropic 人类经济指数报告:AI 如何重塑经济?

人均收入水平能预测各国如何使用 Claude。每张图表对应一种特定用途(工作、课程作业或个人),展示该用途在 Claude.ai 对话中的占比,与人均 GDP 对数之间的关联。


「人类如何提示,Claude 就如何回应」


我们发现「人类输入提示词所需的教育水平」与「AI 输出所需的教育水平」之间存在极高的相关性:


即理解用户提示词所需的教育年限,与理解 Claude 的输出所需的教育年限高度相关(国家:r = 0.925,p < 0.001,N = 117; 美国各州:r = 0.928,p < 0.001,N = 50)。


这说明了技能的重要性,并表明人类如何提示人工智能决定了其效果。


这也突出了模型设计和训练的重要性。虽然 Claude 能够以高度复杂的方式响应,但通常只有在用户输入复杂提示时才会如此。


「模型的训练、微调和指导方式影响了它们对用户的反应」


例如,一个人工智能模型可能有一个系统提示,指示它始终使用中学生能理解的简单语言,而另一个人工智能模型可能只用需要博士学历才能理解的复杂语言回应。


对于 Claude,我们观察到一个更动态的模式,用户给 Claude 的提示词,影响 Claude 的输出,而反过来,Claude 的输出,也会影响用户下次对话的提示词。


职业


「覆盖范围」


我们在 2025 年 1 月发布的首份报告显示,样本中 36% 的岗位至少有四分之一的任务用到了 Claude。


把所有报告的数据汇总后,这个比例已经上升到 49%。


但如果考虑到 Claude 的任务成功率(计算时会根据工人执行该任务的频率和耗时加权),哪些岗位受 AI 影响最大的结论就会有所不同。


下图中,x 轴是我们之前测算的职业任务覆盖度,y 轴则是新的、调整后的指标。虽然两者存在明显关联,但结果有意外:


有些职业(比如数据录入员和放射科医生),受 AI 的影响程度,远超过仅用任务覆盖度预测的结果;


而另一些职业,像教师和软件开发者,则相对没那么容易被 AI 影响。


最新 Anthropic 人类经济指数报告:AI 如何重塑经济?

这张图展示了职业层面上有效 AI 覆盖率(%)与任务覆盖率之间的关系。有效 AI 覆盖率(Effective AI coverage)衡量的是 AI 能成功完成工人时间加权职责的比例,数据来自 Claude.ai 。任务覆盖率(Task coverage)则指 Claude.ai 使用中涉及的任务占比。图中的虚线代表两者相等的位置,也就是有效 AI 覆盖率刚好等于任务覆盖率的点。


不过话说回来,就算是我们修订后的评估,还是有局限的:


我们只看 Claude.ai 平台上完成的任务,而且这些对话到底怎么对应到真实世界的变化,还不是很明确。


这部分我们打算后续深入研究。


「任务内容」


我们还探讨了另一个问题:AI 在特定职业中,究竟是专注于高技能还是低技能的任务部分?


通过评估每个任务所需的教育门槛,我们发现 Claude 更倾向于处理那些需要更高学历的任务。


具体来说,这些任务平均要求 14.4 年教育时长(相当于美国副学士学位),而整个经济领域的平均水平是 13.2 年。这一发现和之前的结论不谋而合:Claude 确实更受白领群体的青睐。


最新 Anthropic 人类经济指数报告:AI 如何重塑经济?

蓝色柱状图表示 O*NET 数据库中所有任务的预测教育水平分布(按就业人数加权),橙色柱状图表示 Claude.ai 数据中涉及任务的相应分布。


我们做了一项实验:如果把 Claude 能胜任的任务从岗位中剥离,人们的工作内容会发生怎样的变化?我们模拟了这个场景的影响。


最直接的结果是,岗位整体的技能门槛会降低:因为被替代的都是需要高学历才能完成的任务。


(小编 PS:这句话的意思是,当原本需要高学历才能完成的任务被 AI 替代后,剩下的工作内容可能对学历、专业知识的要求不再那么高,低学历者经过相对较少的培训或不需要那么高的学历背景,也能完成剩下的工作)


技术作家、旅行社职员、教师这类职业会受到明显冲击(报告后续有更详细的分析),不过也有少数例外:比如房地产经理,他们的情况正好相反。


我们并非断言这种技能退化一定会发生:就算 AI 把现在能做的任务全自动化了,劳动力市场也可能以我们分析没覆盖到的方式动态调整,这种可能性是存在的(当然,随着模型升级,AI 能接手的任务类型也会变化。)


话虽如此,但我们认为,这至少能为 AI 近期对各类职业可能产生的最直接影响,提供一个有价值的参考信号。


总体影响


在我们此前的研究中,我们估算 AI 的广泛应用有望在未来十年内:


将美国劳动生产率的年增长率提升 1.8 个百分点 —— 大约是当前趋势增速的两倍。


而我们新构建的基本要素,让我们得以重新审视这一分析结论。


我们仅根据任务加速比的估算,再次验证了之前的结论:增速达 1.8 个百分点(即使纳入 API 数据也是如此)。


但一旦考虑任务可靠性(即用任务成功概率调整任务级时间节省的估算值),Claude.ai 上完成的任务增速估计会下降约三分之一,降至每年 1.2 个百分点;而API上那些通常更具挑战性的任务,下降幅度稍大,增速估计降至 1.0 个百分点。


哪怕劳动生产率每年只提高 1 个百分点,这个变化也相当可观:它能让美国的生产率增速回到 90 年代末、21 世纪初的水平。


此外,正如我们在早期研究中提到的,这一总体估算尚未考虑以下可能性:


AI 模型变得更强,或者职场 AI 应用更复杂。这两种情况都可能让最终数字再往上走一大截。


事实上,自从我们的调查以来,随着 Claude Opus 4.5 的发布,Claude 变得强大得多。


关于我们之前监测指标的最新进展


除了我们之前定义的基本要素指标外,我们还收集了新一轮数据,用于跟踪此前报告中持续监测的指标。这让我们能梳理出 2025 年 1 月至 11 月期间 AI 使用的变化趋势。


从结果来看,大部分变化只是此前分析结论的小幅延续,此前的分析已指出 Claude 的使用分布存在不均衡现象。


首先,我们发现 Claude 的使用始终高度集中在少数任务上:即使样本覆盖了Claude.ai 上 3000 个不同的工作任务,前 10 个任务仍占总使用量的 24% ,这个比例从 2025 年 1 月的 21% 稳步上升。


具体来看,计算机和数学类任务仍然是 Claude 的主力用途。这类任务占Claude.ai 对话总量的三分之一左右,在 API 流量中更是接近一半。


第二,我们的新报告显示,增强型应用(占对话总量的 52%)已超越自动化应用(45%),成为 Claude.ai 平台上用户与 Claude 交互的最主流模式。


这与八月的数据形成反转,当时自动化以 49% 对 47% 领先。不过拉长时间线看,自动化的任务占比仍在缓慢上升:去年一月增强型以 55% 对 41% 领先,到三月则变为 55% 对 42%。


第三,最新分析数据显示,AI使用的地域集中趋势(上次讨论过)依然清晰。许多国家在 Claude.ai 的整体使用率上仍处于领先位置,人均 GDP 对使用率的解释力依然很强。不过美国境内的变化更为明显:Claude 的使用在各州间的分布已经显著趋于均衡。


事实上,如果这一趋势持续,我们的模型预测全国范围内的 Claude 使用率将在 2 到 5 年内达到平衡状态。报告中对该模型有更详细的探讨。


结论


我们最新发布的经济指数报告,得出了一个最直接的结论:


AI 对全球劳动力的影响极不均衡。


一方面,AI 使用率仍集中在特定国家和特定职业;另一方面,它对不同职业的影响方式差异巨大,任务覆盖度的数据也充分印证了这一点。


总的来说,这份报告提供了一个全新的基准,用来对比未来的调查数据。


随着 Claude 不断优化,它将被赋予更复杂的任务,而且完成这些任务的成功率有望进一步提升。


还预测,当任务变得更可靠时,可能会从 Claude.ai 平台迁移到 API 接口:也就是说,用户群体将从以消费者为主转向以企业为主。这一变化意义重大,因为企业对 AI 的采用程度直接影响生产力提升,所以它可能成为未来经济影响的又一个信号。


通过我们的基本要素,我们能衡量这些变化如何开始影响现实世界的结果,包括人们工作性质的改变,以及在这场技术快速转型期里,哪些人(和哪些地区)可能受到最大的影响。


与此同时,研究人员、记者和公众都可以利用我们的数据。他们既能辅助自己的研究和思考,也能为未来可能需要的政策措施提供实证基础。如果想深入了解上述各领域的细节,欢迎查阅完整报告。


文章来自于“特工宇宙”,作者 “宇宙编辑部”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0