推荐人:华中科技大学管理学院 何炳林
文献来源:Eloundou T, Manning S, Mishkin P, et al. Gpts are gpts: An early look at the labor market impact potential of large language models[J].arXiv preprint arXiv: 2303.10130, 2023.
原文链接:https://doi.org/10.48550/arXiv.2303.10130
推文期数:183期
一、引言
大语言模型(Large Language Models,简称LLMs)是人工智能技术中的一项重要突破,其中Generative Pre-trained Transformer(GPT)模型在自然语言处理领域取得了显著成果。最近,GPT-3.5、GPT-4等LLMs的相继问世引起了广泛的关注和热议,这些模型在语言理解、生成和翻译等方面表现出色,成为了自然语言处理领域的热门研究方向。然而,迄今为止,现有关于大语言模型的研究更多集中于技术层面,有关大语言模型对劳动力市场的研究屈指可数。
本文使用O*NET数据库和美国劳工统计局提供的职业就业数据,结合新的评估方法,使用GPT-4为例考察大语言模型对美国劳动力市场的影响。结果表明,在职业层面,大约80%的工作会受到GPT-4的影响,约19%的工作中的50%任务可以交由GPT-4完成。具体到美国劳动力市场中,如果只考虑大语言模型的影响,仅3%的美国工人有超过一半的任务受到GPT-4的影响,但如果进一步考虑大语言模型衍生出来的其他生成模型和补充技术,高达49%的工人任务的一半以上可以交由AI完成。
进一步分析发现,工资较高、准入门槛较高的职业受GPT-4影响更大。从技能水平来看,GPT-4对依赖科学思维和批判性思维的工作影响更小,而依赖编程和写作技能的工作受到GPT-4的影响更大。同样,考虑到大语言模型衍生出来的技术发展,大语言模型对劳动力市场的影响会显著扩大。
二、GPT影响的测度
1.数据来源
本文使用的来源于O*NET 27.2数据库,该数据库是美国劳工统计局(BLS)所统计的一项职业信息资源库,包含了美国所有职业相关的培训、技能、教育和经验等方面的信息。具体而言涵盖了1016种职业(Occupations)信息,其又可进一步细分为19265种任务(Tsks)或2087种具体工作活动(Detailed Work Activities,DWAs)。例如,经济学大学老师是一个职业,他的任务包括上课、学术研究、行政职务等。上课的具体工作活动包括制定教学目标、准备考试、指导课堂讨论、监督学生学习等。本文还使用2020和2021的美国劳工统计局的就业数据,包括每个职业的工人数量,2031年职业层面的就业预测,进入某个职业所需的教育水平和达到某个职业能力所需的在职培训时间。
2.暴露(Exposure)程度的衡量
根据是否会受到GPT影响,本文将工作活动的暴露程度分成3种情况:①没有暴露(E0):在保证完成工作活动质量相同的情况下,大语言模型以及相关补充技术均不能将完成工作活动的时间减少至一半;②直接暴露(E1):仅使用大语言模型就可以将完成工作活动的时间减少至一半以上;③LLM+暴露(E2):虽然大语言模型不能将完成工作活动的时间减少至一半,但使用大语言模型加上大语言模型补充技术可以将完成工作活动的时间减少至一半以上。
一项工作活动的暴露程度由我们和经验丰富的注释者分别进行判断,并汇总到任务和职业层面。本文还使用GPT-4和人为引导后的GPT-4,用于估计GPT-4对所有任务和职业的影响。同时,本文基于不同的暴露程度构建了三个指标,分别为:①α,等于E1,表明某一任务或职业受GPT-4的影响程度;②β,等于E1+0.5*E2,影响程度介于α与之间ζ,表明受GPT-4直接影响的任务数量是受GPT-4和相关补充技术影响任务数量的两倍;③ζ,等于E1+E2,表明某一任务或职业受GPT-4直接影响和GPT-4加上相关补充技术的影响程度。通过对比发现,人工判断与两种GPT-4的结果相似,不存在显著差异。
三、GPT对劳动力市场的影响
本文基于构建的三个指标α、β、ζ,分别考察使用不同标准下GPT对不同职业和工人的影响程度。从表3可以看出,在职业层面,三种衡量标准的均值分别为0.14、0.32、0.505,在任务层面,三种衡量标准的均值与职业层面类似,分别为0.145、0.32、0.515。这说明在职业层面仅GPT-4就可以替代14%职业工作的一半,GPT-4加上大语言模型补充技术可以替代50.5%职业工作的一半。在任务层面,GPT-4可以替代14.5%任务的一半,加上大语言模型补充技术可以替代51.5%任务的一半。
图3更加细致的展示了GPT-4在职业和劳动力层面的影响,图3的横轴表示GPT可以完成任务的比例,纵轴表示受影响的职业和劳动力比例,图形中的圆点表示指标α的结果、十字表示β的结果、三角形表示ζ的结果。图中的每个点表示在不同的度量方式下,有多少职业或工人的任务可以被GPT-4替代。从图3的(1)可以看出,GPT-4可以帮助70%的职业完成他们任务的一部分,使用GPT-4和大语言模型补充技术可以帮助90%的职业完成至少一项任务。图3的(2)图展示了GPT-4对美国劳动力的影响,仅考虑GPT-4,他可以帮助约80%的工人完成一项任务,有2.4%工人工作的一半可以交由GPT-4完成,而如果加上大语言模型补充技术可以帮助95%的工人完成至少一项任务,有49.6%工人工作的一半可以交由GPT-4和大语言模型补充技术完成。
除此以外,本文考察了行业规模和行业工资的异质性,发现GPT-4对不同规模的行业影响差异不大,但GPT-4对高工资行业的影响显著高于低工资行业。从技能异质性来看,涉及科学和批判性思维能力的工作受GPT-4影响更小,涉及编程和听说读写技能的工作受GPT-4影响更大。就行业进入难度而言,进入行业所需要的培训时间越长及越难进入的行业,GPT-4对其影响更大。本文还参考先前研究使用的方法进行测度,发现总体上与之前的测度结论存在正相关,仅制造手工业的分析结果存在负相关,本文认为这是因为GPT-4对手工相关的工作影响不大。
四、研究结论
本文使用O*NET数据库和美国劳动统计局的就业数据,分别使用主观判断、GPT-4和人为引导后的GPT-4估计以GPT-4为代表的大语言模型对不同职业任务和工作活动的影响。研究发现,如果只考虑大语言模型,GPT-4可以完成3%美国工人任务的一半,但考虑到其他补充技术,高达49%的工人有一半的任务可以交由AI完成。同时本文还考察了GPT-4对不同行业、不同技能以及不同进入门槛的市场的影响。
推荐理由:
本文是由三位OpenAI公司的员工以及宾夕法尼亚大学沃顿商学院的助理教授共同撰写,本文非常详细的估计了以GPT-4为代表的大语言模型对劳动力市场的影响。目前,该研究还只是一个初步的估算,没有考察大语言模型对生产力水平的提升和劳动替代,同时估计的方式也存在较多的主观因素,结论不一定准确。未来我们可以使用更加准确的方法估计大语言模型对不同行业或对整个劳动力市场的影响。