Indeed Hiring Lab 评估了OpenAI开发的生成式AI模型GPT-4在超过2800项工作技能中的表现。每项技能的评估涵盖了三个主要领域:
这些评估结果共同构成了模型最终的判断,即生成式AI在执行这些2800多项具体技能时,能够取代人类的可能性。
1、在Indeed评估的2800多项工作技能中,没有一项技能被认为“很有可能”被生成式AI(GenAI)取代。在五种可能的结果(“非常不可能”、“不太可能”、“可能”、“有可能”、“非常可能”)中,大多数技能(68.7%)被评估为“非常不可能”或“不太可能”被GenAI取代。
2、如果企业改变一些做法并且工具得到改进,未来大约四分之一的技能(28.5%)有可能被GenAI取代。
3、总体而言,GenAI在提供技能的理论知识方面表现强大,但在使用技能解决问题时表现较弱。只要一项技能需要大量的实践操作(例如“航空”或“烹饪”技能),那么GenAI的用处就仍然很有限。
4、GenAI对特定职业的终极影响将取决于该职业中的技能能否被AI 技术很好地执行,无论是现在还是未来。
尽管生成式人工智能(GenAI)技术突飞猛进,引发了人们对工人大规模失业的担忧,但人类的工作技能在可预见的未来不太可能被轻易取代。实际上,目前这一代GenAI工具几乎不可能取代熟练的人类工人,或者完全掌握并执行成千上万种常见工作技能中的任何一个。
每个职业都要求工人能够综合运用三种关键领域的技能:获取、保持和提供与这些技能相关的理论知识;运用这些技能解决问题;以及亲自或通过数字方式执行这些技能。一个成功的人类工人能够灵活地在这些维度之间平衡和调整自己的技能,以完成工作。然而,由GenAI驱动的数字“工人”虽然可能在这些衡量标准中的一个或两个上表现出色,但要在这三个方面都实现同样的平衡则面临挑战。
这些模型有潜力继续学习,未来可能取代某些技能的人类,但这需要数字化和工作方式的显著变化作为前提。这些工具在某些耗时的任务上可以提供巨大帮助,例如简化密集文本或快速生成高质量的图像和音频。
未来,随着机器人技术的进步,这些工具可能变得更加擅长模仿和掌握人类如何手动应用他们的技能。但目前,GenAI最适合协助处理那些相对简单、只要求适度解决问题能力,且最关键的是,不需要亲手操作的任务。
Indeed从数亿份职位发布中,筛选出2800多项常见工作技能,涵盖从“客户管理”到“创伤护理”等多个领域。基于这一详细的技能分类,Hiring Lab设计了一个复杂的提示框架,使用OpenAI开发的大型语言模型GPT-4o来评估这些技能。模型需从三个关键维度来评估其执行每项技能的能力。每个维度的评估都采用5分制,1分表示该维度上几乎没有或非常有限的能力,5分表示表现出色。
最终,模型结合这三项评分,对所有2800多项具体技能进行综合评估,并使用同样的5分制来评估GenAI是否可能取代人类(1表示“非常不可能”,5表示“非常可能”)。
这项分析是经过数月密集的人机协作而完成的,最终生成了一份超过1000字的高度具体化提示,确保GenAI严格遵循人类指令。为了实现最佳效果,这个提示经过多次调整——任务要求越复杂,提示也需要越细致。所有结果均由人类研究员验证,若结果不符合预期,提示将再次调整。一旦提示框架最终确定,分析被重复运行了15次,并将结果整合为最终评分,以提高GenAI输出的可靠性。
讽刺的是,这种精细的方法正好证明了研究的核心发现:即便GenAI在不断发展并逐渐掌握复杂任务,但负责监督、指导并校正其输出的人类,仍然不可轻易被取代。
整体而言,GenAI在提供理论知识方面的能力评价较高,但在解决问题的能力上评分略低。在所评估的技能中,GenAI认为自己在79.7%的技能上具备“良好”的理论知识提供能力(打分为4分)。对于解决问题的能力,GenAI表示在70.7%的技能上能够应对“中等”难度的问题(评分为3分)。值得注意的是,对于大多数技能(54%),GenAI认为人工执行是“必不可少的”(评分为1分)或“非常必要的”(评分为2分)。
总体来看,GenAI没有对任何技能的能力评估为“非常有可能”能够取代人类工人。尽管随着技术进步和工作场所或工作规范的变化,28.5%的技能在未来“可能”被GenAI取代,但整体上,超过三分之二的技能(68.7%)被评定为“非常不可能”(评分为1分)或“不太可能”(评分为2分)被GenAI取代。
Violin Chart: GenAI技能评级分布(截至2024年8月)——该图表展示了GPT-4o在Indeed数据库中约2800项美国工作技能的评级。GenAI的理论知识 consistently 被评为“良好(4分)”,而其解决问题的能力在大多数技能上则被评为“中等(3分)”。略超过一半的技能需要实践执行,且没有任何技能被评定为“非常可能(5分)”被取代的潜力。
Indeed的研究显示,生成式人工智能(GenAI)在提供与技能相关的理论知识方面能力最强。在Indeed分析的2800多种技能中,理论知识是唯一一个得到了最高评分5分的维度(除了物理操作的必要性之外)。这些模型经过多年大量数据的训练,包括学术数据、私有数据库信息以及其他专有训练资料。即便模型未曾接触过最新的数据,它们通常也能通过搜索引擎来查找信息。这些工具能够迅速地总结、重新编排并展示这些知识,而且作为参考工具,它们的性能预计还会持续提升。
然而,它们远非完美的参考工具。虽然现今的基础网络搜索只是简单地复述其他地方已有的内容,但GenAI更倾向于进行新的推断并形成新的结论,有时这些结论可能并不准确。支持这些工具的大语言模型(LLMs)在语言和写作上有扎实的理论基础,但它们也可能出现逻辑上的跳跃和错误,有时甚至会编造信息。
许多GenAI产品还被设计来创造逼真或奇异的图像和音频。用于训练视听内容生成工具的数据常常存在问题,导致生成的图像或音频可能加深负面的种族和性别刻板印象。此外,GenAI本身不具备内在的道德判断能力,无法辨别其对特定提示的回应是否在道德上正确或错误。因此,对于这些文本、音频和视觉输出的提示进行人工监督,以及对输出内容进行仔细审查以确保其准确性、真实性和适当性,是至关重要的。
除了提供一般知识外,模型在使用技能解决问题的相对能力以及在应用该技能时人工执行的重要性,对确定GenAI取代人类的可能性产生了最大影响。解决问题的能力是人类创造力的标志,GenAI在使用特定技能解决问题的能力越强,其取代人类的可能性就越大。
在所评估的技能中,超过70%(70.7%)的技能中,GenAI的解决问题能力被评定为3分(“中等”)。对于超过四分之一(27.7%)被评为3分的技能,GenAI对取代人类的可能性也给予了3分的评级。在2.8%的技能中,GenAI将其解决问题的能力评定为4分(“良好”),并同时将自己的人类替代评级定为4分(“可能”)。
Tile Chart: GenAI的有效问题解决能力增强了其取代人类劳动的潜力截至2024年8月)——该图表展示了基于问题解决能力的技能评级,从最低(1分)到最高(5分),以及替代潜力,从“非常不可能”(1分)到“非常可能”(5分)。大多数技能(43%)被归类为中等问题解决能力,并且具有不太可能被取代的潜力。
需要注意的是,尽管GenAI模型在解决某些技能问题上表现出色,但它们目前还不具备执行实际物理任务的能力。虽然随着机器人技术的发展,这种情况将来可能会改变,但就目前而言,如果某项工作需要亲手操作,GenAI取代人类的可能性就不大。在所有被评为“良好”(即5分中的4分)的问题解决技能中,对于101项技能,身体劳动的必要性被认为只是“略微需要”或者“根本不需要”。这表明,即使GenAI在某些技能上的问题解决能力较强,只要这些技能需要亲手操作,GenAI取代人类的能力就相当有限。在所有分析的技能中,GenAI认为将近三分之一(30.1%)的技能是“必不可少”的,因此,这些技能被GenAI取代的可能性“非常小”或者“不太可能”。
Tile Chart:对于体力要求较高的技能,GenAI 替换的可能性较小(截至 2024 年 8 月)——该图表根据体力执行的必要性对技能进行分类,从基本 (1) 到不必要 (5) 及其替换的潜力,从极不可能 (1) 到极有可能 (5)。少数技能(11.7%)被评为不需要实际执行并且具有可能或可能替代的潜力。
在众多职业中,GenAI在不同技能上的表现并不均衡。例如,技术职位通常需要较多的数字技能,而这些技能往往不需要太多的亲手操作,因此GenAI在这些领域更容易展现出高水平的能力。相反,护理工作,如照顾老人或儿童,涉及的技能更为广泛,虽然GenAI可以提供一些知识上的支持,但这些工作更多地依赖于实际的人工操作。
研究分析发现,在软件开发这一职位中,超过71%的常见技能有可能被GenAI取代。相比之下,对于普通护士职位,只有大约32.9%的技能被认为有可能被GenAI取代,这显示了GenAI在不同职业中的替代潜力存在显著差异。
Barplot:GenAI 跨职业的替代潜力 — 该图表说明了 GenAI 替代人类执行各种技能的可能性,以 Indeed 上美国职位发布中的技能百分比表示。替代潜力的评级从极不可能 (1) 到极有可能 (5)。数据代表过去一年(2023年8月1日至2024年7月31日)的每日平均值。会计职业的替代潜力最高,而厨师则属于最低类别。
一般来说,特定工作中需要人工执行的技能比例越低,可能被 GenAI 取代的技能比例就越高。
Scatterplot: 高身体执行技能显示 GenAI 跨职业的替代潜力较低 - 该散点图显示了需要基本或高度必要的身体执行能力的技能份额(x 轴)与具有替代潜力的技能份额之间的关系GenAI(y 轴)表示可能”或“可能”。该数据基于 Indeed 数据库中约 2,800 项美国技能,评估截至 2024 年 8 月。身体技能要求较高的职业往往表现出较低的替代潜力。
Scatterplot: 高问题解决技能水平推动 GenAI 替代潜力 - 该散点图突出显示了问题解决能力(x 轴)中被评为“良好 (4)”的技能份额与替代者的技能份额之间的关系潜力被评为“可能”或“可能”(y 轴)。数据基于截至 2024 年 8 月 Indeed 数据库中约 2,800 项美国技能。虽然更高的解决问题能力与更高的替代潜力相关,但很少超过所评估技能的 30%。
强大的问题解决能力直接关系到GenAI可能取代人类工作的可能性。然而,目前GenAI在解决许多常见工作技能问题方面,并不是特别擅长。以会计行业为例,大约78%的常见技能有被GenAI取代的潜力,而在会计职位中,GenAI认为自己在30.5%的技能上拥有良好的问题解决能力。
值得注意的是,会计行业在这方面是个例外——它是唯一一个GenAI在至少30%的常见技能上自评为具有良好问题解决能力的职业。对于大多数其他职业来说,GenAI在解决问题方面的能力较为有限,因此被GenAI取代的技能比例也相对较低。如果未来GenAI在解决更多工作中的技能问题上有所提升,那么这些工作中可能被取代的技能比例也可能随之增加。
以护士和软件开发者为例,这两个职业通常都需要类似的软技能,如沟通能力和领导力。但是,每个职业特有的技能却是GenAI在不同领域能力差异的体现。GenAI能够熟练地学习和应用软件开发职位招聘中常见的各种编程语言,例如Python或JavaScript,并且在需要时对人类编写的代码进行故障排查。
然而,尽管GenAI有能力协助护士制定合适的病人护理计划,它却无法亲自进行任何形式的身体护理,包括给药或紧急护理操作。
词云:Indeed 上美国职位发布中针对软件开发职业的前 25 项技能—此词云根据过去一年(8 月 1 日)的平均每日值,显示 Indeed 上美国软件开发职位职位发布中最常用的技能,2023年至2024年7月31日)。编程语言和软件框架等技能在列表中占据主导地位。
词云:Indeed 上针对护士的美国职位发布中的前 25 项技能 — 该词云代表了 Indeed 上美国职位发布中护士职位最常见的技能,根据过去一年(2023 年 8 月 1 日,至 2024 年 7 月 31 日)。护理、患者护理和沟通等技能尤为突出。
在软件开发领域,大约40.6%的工作职位要求掌握Java编程语言。GenAI在Java的理论知识(评为“好”)、问题解决能力(评为“中等”)以及替代潜力(评为“可能”)方面给自己打了相对较高的分数。GenAI解释说,虽然它能够帮助解决编码问题、调试和生成代码片段,但对于复杂的问题解决和集成工作,仍然需要人类的专业知识。
而在护理行业,情况则完全相反。护理工作职位中最常见的技能之一就是“护理”本身,平均有44.8%的护理职位要求这一技能。尽管GenAI在理论知识方面给了自己高分(评为“好”),但在解决问题的能力上只给了自己较低的评分(评为“基本”)。GenAI认为,护理技能的实际操作是“至关重要”的,因为护理工作需要身体在场来照顾病人、给药等。
因此,GenAI认为“护理”技能的替代潜力“不太可能”,因为模型只能提供信息和建议,无法取代护理工作的身体劳动部分。
总的来说,护理工作需要更多GenAI在问题解决上表现不佳的技能,并且这些技能往往需要实际操作。因此,护理工作中可能或有可能被GenAI替代的技能比例较低。在典型的护理职位中,大多数(58%)常见技能都需要“非常必要”或“至关重要”的身体在场。相比之下,在软件开发人员的工作职位中,只有13%的常见技能需要“非常必要”或“至关重要”的人类员工在场。
Dumbbell Plot:这张图表展示了不同职业中,哪些技能被认为是“非常必要或至关重要”(用蓝色圆圈表示)以及哪些技能“不需要或只是稍微需要”员工亲自在场(用金色方块表示)。这些数据是基于过去一年(从2023年8月1日到2024年7月31日)的GPT-4o评估,以及Indeed网站上美国职位发布中技能的平均每日占比。例如,像厨师这样的职业在所需的技能中,有很大一部分需要员工亲自进行实际操作。
会计行业是一个典型的例子,它体现了一个职业中存在大量技能,这些技能被GenAI取代的可能性既不高也不低。具体来说,在会计职位招聘中常见的技能有58%仅被评为有被GenAI取代的可能性(在5分制量表上得分为3)。GenAI对会计行业的最终影响将取决于许多目前尚未知晓的因素。
GenAI在会计职业中的作用:技能支持和替代潜力**— 这一组图表展示了截至2023年8月1日至2024年7月31日期间,基于GPT-4o评估的美国会计职业在Indeed上的技能日均分布。每个条形图展示了在理论知识、问题解决能力和实际执行方面的技能分布,评分范围从低(1分)到高(5分)。右侧的图表则展示了GenAI在这些技能中取代人类劳动的可能性。
会计领域的许多工作并不要求现场操作——数字处理和利润/亏损率的确定一直是数字软件的擅长之处。然而,相较于其他业务,某些会计工作可能需要更多的亲手操作。比如,一家小型的家族式会计事务所可能需要频繁处理客户提交的纸质报表,或者定期与客户进行面对面的会议来讨论策略等。在这些情况下,尽管GenAI在处理数字方面可能非常熟练,但它无法接收新的文件批次,也无法在接手业务后对这些文件进行物理扫描,更不能与客户进行轻松的交流。
在会计行业,能否被GenAI替代,很大程度上取决于处理复杂问题的能力。大多数会计技能(占68%)在解决问题的能力上被评定为中等水平。这意味着,面对简单的问题,GenAI或许能胜任,但一旦问题变得复杂,它的表现就会下降。
以“组织技能”为例,这种技能在会计职位招聘中相当普遍(占比18.8%),但GenAI在这一技能上的表现只是中等,因为它虽然能够提供一些组织任务和时间管理的实用方法,但面对非常复杂或不断变化的情况时,可能会力不从心。同样,对于核心的“会计”技能(在招聘中占比74.8%),GenAI也只得到了中等的评级,它能处理一些中等难度的会计问题,并提供一些常见情况的实用建议,但在处理极其复杂的问题时可能会遇到困难。
随着时间的推移,GenAI可能会变得更加擅长解决复杂问题,但这并不是板上钉钉的事。因此,尽管GenAI有可能在未来取代一些会计技能,但目前来看,这种可能性只是“可能”,而非“极有可能”。
展望未来,企业若想充分利用GenAI在会计等领域的潜力,可能需要在数字化和电子记录方面进行大量投资。这可能包括改进软件、硬件和培训员工使用GenAI工具。每家企业都需要自行评估这样的投资是否值得。了解GenAI的优势和局限性,可以帮助企业领导者做出更明智的决策,如何更有效地结合人工和数字化工具,以提升业务效率并找到最佳的平衡点。
GenAI的普及面临的一大挑战是它对精确性的高要求。要充分利用GenAI模型,用户需要非常明确和细致地与其互动。如果提出的问题表述模糊,即使多次以相同的方式提问,得到的答案也可能有所不同。对于那些需要解决更复杂任务的高级查询,用户需要具备更高水平的技巧来正确地引导GenAI。指望大量员工能快速掌握这些高级技巧,从而从GenAI模型中获取最大价值,这是不现实的。
因此,企业和教育机构需要投入大量资源,开发和实施培训项目,教授基本和高级的GenAI相关技能。随着更多软件和工作应用程序直接整合GenAI模型,比如Microsoft的Copilot、Salesforce的Einstein或Github的Copilot产品,GenAI将逐步成为日常工作的一部分。不过,无论是整合GenAI模型还是培训员工,都需要时间。
随着全球劳动力老龄化,未来劳动力市场需要在减少的劳动力中保持生产力的增长。GenAI工具可以帮助提高员工的生产力,是应对这一挑战的关键解决方案之一。它们可能有助于填补某些行业的技能缺口,缓解劳动力供应不足地区的紧张状况。
然而,GenAI并不能在所有紧张的劳动力市场中均匀地发挥作用。例如,如果一个市场急需技术工人,GenAI可能比急需医疗保健工人的市场更有帮助。此外,对于需要人类必须在场的工作,GenAI的作用有限。
在那些需要大量实践操作的工作中,GenAI可以帮助员工专注于核心技能。例如,在医疗保健领域,GenAI可以协助记录工作,让医护人员有更多时间专注于患者护理或深入学习相关知识。在典型的办公室工作中,GenAI可能达到初级专业人员的水平,解决一些适度难度的问题。这强调了持续提升人类技能和终身学习的重要性,以确保这些工具能够增强人类的工作能力,而不是取代人类。
对于所有工人来说,关键信息是:虽然GenAI不太可能直接取代人类的工作,但掌握如何有效使用GenAI的人很可能会取代那些不会使用AI技术工具的人。现在是时候开始探索这些工具,了解它们的功能,评估它们的优缺点,并考虑它们可能如何影响各种工作了。
文章来自于微信公众号“非凡产研”,作者“AI商业智库”
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/