GPT-4が労働市場に与える影響と各職種のリスク評価──OpenAIの研究者が論文発表
https://www.itmedia.co.jp/news/articles/2303/21/news068.html
GPTで完全に代替されるわけではなく、代替される業務の比率には差異がある
以下
GPTはGPTである。大型言語モデルの労働市場への影 響可能性をいち早く検証する
Tyna Eloundou1、Sam Manning1,2、Pamela Mishkin1, Daniel Rock3
1OpenAI 2OpenResearc
h 3ペンシルバニア大学
2023年3月21日 アブストラクト
我々は、Generative Pre-trained Transformer (GPT) モデルと関連技術が米国の労働市場に与 える潜在的な影響について調査する。新しい評価基準を用いて、人間の専門知識とGPT-4の 分類の両方を取り入れ、GPT能力との対応に基づいて職業を評価する。その結果、米国の労 働者の約80%がGPTの導入により、少なくとも10%の業務に影響を受ける可能性があり、約 19%の労働者は少なくとも50%の業務に影響を受ける可能性があることがわかりました。ま た、その影響はすべての賃金水準に及び、高所得者ほど大きな影響を受ける可能性がありま す。注目すべきは、その影響が最近の生産性上昇率が高い産業に限定されないことである。 我々は、Generative Pre-trained Transformersが汎用技術(GPT)の特徴を示すと結論づけ、これ らのモデルが経済、社会、政策に顕著な影響を与える可能性を示唆した。
1 はじめに
図1に示すように、近年、生成AIと大規模言語モデル(LLM)の分野では、数年、数ヶ月、数週 間のうちに目覚ましい進歩が見られます。一般にLLMは、生成的事前学習済み変換器(GPT)の さまざまな反復を連想させることが多いが、LLMはさまざまなアーキテクチャを使用して学習 でき、変換器ベースのモデルに限定されない(Devlin et al.、2019)。LLMは、アセンブリ言語 、タンパク質配列、チェスゲームなど、さまざまな形式のシーケンシャルデータを処理・生成 でき、自然言語アプリケーションだけにとどまらない拡張性を持っています。本論文では、 LLMとGPTをやや互換的に使用し、ChatGPTまたはOpenAI Playground(ラベル付け時点では GPT-3.5ファミリーのモデルを含むが、GPT-4ファミリーのモデルは含まない)で利用できる
1
arXiv:2303.10130v2 [econ.GN] 2023年3月20 日
GPTファミリーのモデルと同様に考えるべきことをルーブリックで指定しています。ここでは 、テキストやコードを生成するGPTを対象とし、画像や音声などのモダリティも含めて「ジェ ネレーティブAI」という用語を用いています。
しかし、私たちの研究は、これらのモデルだけの進歩よりも、その周囲で開発された補完的 な技術に見られる幅、規模、能力により動機づけられています。補完技術の役割はまだ不明だ が、LLMのインパクトを最大化するには、より大規模なシステムと統合することが不可欠であ るようだ(Bresnahan, 2019; Agrawal et al.、2021)。この議論の多くはLLMの生成能力に焦点を 当てているが、LLMを他のタスクに使用することで可能になる新しいタイプのソフトウェアと 機械通信があるかもしれない(エンベッディングなど)。
*Corresponding author (pamela@openai.com)。著者の貢献度は均等で、アルファベット順に記載されています。
2
図1:モデル能力の進歩の速さを実感するために、GPT-3.5とGPT-4の間の試験成績のジャンプ を考えてみましょう(OpenAI, 2023b)。
は、カスタム検索アプリケーションや、要約や分類のような、生成的か否かの区別が不明確な タスクの構築を可能にします。
この進行を文脈化し、技術の労働影響予測を補完するために、我々はLLM能力とその雇用へ の潜在的影響を理解するための新しいルーブリックを提案する。このルーブリック(A.1)は、 機械学習へのエクスポージャーの定量化に関する先行研究(Brynjolfsson et al., 2018; Felten et al., 2018; Webb, 2020)の精神に従って、GPTに対するタスクの全体的なエクスポージャーを測定し ます。我々は、労働増強効果または労働置換効果を区別することなく、潜在的な経済的影響の代 理として露出を定義する。我々は、人間のアノテーターとGPT-4自体を分類器として採用し、主 にO*NETデータベースから入手した米国経済の職業データにこのルーブリックを適用します12。
このデータセットを構築するために、著者からのラベルのサンプルと一致するように調整さ れたプロンプトを使用して、人間の注釈とGPT-4の分類の両方を収集しました。タスクレベルに 集約した場合、GPT-4の回答や人間と機械による評価の間に、同様の一致レベルが観察されまし た。この指標は、人間の労働をより効率的にするための技術的能力の推定値を反映しています 。しかし、社会、経済、規制、またはその他の決定要因は、技術的実現可能性が労働生産性や 自動化の成果を保証しないことを意味しています。我々の分析によると、現在のモデル機能と その上に構築される予想されるツールの両方を考慮した場合、約19%のジョブが少なくとも50 %のタスクが露出していることがわかります。人間の評価では、ソフトウェアやモダリティを
3
追加することなく、既存の言語とコードの能力を考慮した場合、GPTにさらされるタスクが半 分以上あるのは、米国の労働者のわずか3%であることが示されています。他の生成モデルや補 完的な技術を考慮すると、人間の評価では、以下のようになります。
1 これは、高度な言語モデルを活用して人間の行動をシミュレートする最近の社会科学研究とは異なる (Horton, 2023; Sorensen et al, 2022)
2私たちの暴露ルーブリックは、言語モデルの概念を必ずしも特定のモデルに結びつけるものではありませんが、 私たちが観察したGPT-4の能力と、OpenAIのローンチパートナーと開発中の一連の能力を見て、強く動機付けられま した(OpenAI、2023b)。
4
最大で49%の労働者が、業務の半分以上をLLMにさらされている可能性があります。 この結果は、人間とGPT-4アノテーションの両方において、ほとんどの職業がある程度の
LLMへの曝露を示し、異なる種類の仕事において曝露レベルが異なることを一貫して示してい る。賃金の高い職業は一般的に高い露出度を示しているが、これは機械学習全体の露出度に関 する同様の評価(Brynjolfsson et al.、2023年)とは逆の結果である。O*NETのスキルルーブリッ クを用いたスキルセットと露出度の測定値を回帰すると、科学と批判的思考スキルに大きく依 存する職務は露出度と負の相関を示し、プログラミングとライティングスキルはLLM露出度と 正の相関を示すことが判明しました。Autorら(2022a)に倣って、「ジョブゾーン」別に参入 障壁を検討したところ、LLMへの職業的露出は、仕事の準備の難易度に応じて弱く増加するこ とがわかった。言い換えれば、仕事への参入障壁が高い(低い)労働者は、LLMへの曝露が多 い(少ない)傾向にある。さらに、我々の測定値を、経済における自動化エクスポージャーの 分布を記録した過去の取り組みと比較したところ、ほぼ一貫した結果が得られた。他のほとん どのテクノロジー・エクスポージャーは、私たちが選んだエクスポージャーと統計的に有意な 相関があり、マニュアル・ルーティンネスとロボティクス・エクスポージャーの測定は負の相関 があった。これらの先行研究(Acemoglu and Autor, 2011a; Frey and Osborne, 2017; Brynjolfsson et al., 2018; Felten et al., 2018; Webb, 2020; Brynjolfsson et al., 2023)により、賃金コントロールと合 わせて説明した分散は60~72%であり、我々のAI曝露尺度の変動の28~40%は先行技術曝露によ り説明されないままであるということだ
を測定しています。 産業別では、情報処理産業(4桁のNAICS)が高いエクスポージャーを示し、製造業、農業
、鉱業は低いエクスポージャーを示すことがわかった。過去10年間の生産性上昇とGPTの全体的 なエクスポージャーとの関連は弱く、LLMによる将来の生産性向上がコスト病の可能性を悪化さ せないという楽観的なケースを示唆している(Baumol、2012)。3
我々の分析によると、GPT-4のようなLLMの影響は広範に及ぶ可能性がある。LLMは時間の 経過とともに一貫して能力を向上させてきましたが、その経済効果の増大は、仮に今日新しい能 力の開発を止めたとしても、持続し、増大することが予想されます。また、補完的な技術の開 発を考慮すると、LLMの潜在的な影響力は大きく拡大することが分かる。これらの特徴を総合 すると、Generative Pre-trained Transformers(GPT)は汎用技術(GPT)であることを示唆してい る4(Bresnahan and Trajtenberg, 1995; Lipsey et al.)(Goldfarb et al., 2023)は、広いカテゴリーと しての機械学習は汎用技術である可能性が高いと論じている。機械学習ソフトウェアのサブセ ットでさえ、独立して汎用技術の地位を得るための基準を満たすことから、我々の証拠はより 広い影響を支持するものである。本論文の主な貢献は、LLMの影響力の測定法を提供し、LLM を適用してその測定法を効率的かつ大規模に開発するユースケースを実証することである。さら に、LLMの汎用的な可能性を紹介する。GPTはGPTである」とすれば、LLMの開発と応用の最 終的な軌跡は、政策立案者が予測し規制することが困難である可能性があります。他の汎用技
5
術と同様に、これらのアルゴリズムの可能性の多くは、新しいタイプの仕事の創造を含む、経 済的に価値のある幅広いユースケースに現れるだろう(Acemoglu and Restrepo, 2018; Autor et al., 2022a)我々の研究は、現在技術的に実現可能なものを測定する役割を果たすが、必ずしもLLM の時間と共に発展する影響力を見逃すだろう。
本論文は以下のような構成になっている。第2節では関連する先行研究をレビューし,第3節 では方法とデータ収集について述べ,第4節では要約統計と結果を示し,第5節では我々の測定 と先行研究の関連付けを行い,第6節では結果を探求し,第7節では結論を述べている.
3 Baumolのコスト病とは、医療や教育などの労働集約的なサービスのコストが時間とともに上昇する理由を説明 する理論である。これは、他産業の熟練労働者の賃金が上昇する一方で、これらのサービス産業の生産性や効率性が それに対応して上昇しないために起こる。したがって、これらの産業における労働コストは、経済における他の財や サービスと比較して、相対的に 高価になる。
4本稿の残りの部分では、OpenAI経由で利用できるものに代表される大規模な言語モデル全般を指してGPTを使用 し、”GPTはGPT “と記載する以外で使用する場合は汎用技術を綴る。
6
2 文献レビュー
2.1 大型言語モデルの進化
近年、大規模言語モデル(LLM)は、人工知能(AI)研究の分野で注目を集め、複雑な言語ベ ースのタスクに幅広く取り組む能力を示している。この進歩は、モデルのパラメータ数の増加、 学習データ量の増加、学習設定の強化など、複数の要因によって後押しされています(Brown et al., 2020; Radford et al., 2019; Hernandez et al., 2021; Kaplan et al.)LaMDA (Thoppilan et al., 2022) や GPT-4 (OpenAI, 2023b) などの広範で最先端の LLM は、翻訳、分類、創作、コード生成などの 多様なアプリケーションに優れています。これらの能力は、従来、専門技術者がドメイン固有 のデータを使用して開発したタスク固有の特殊なモデルを必要としました。
同時に、研究者は、人間のフィードバックによる微調整や強化学習などの方法を用いて、こ れらのモデルの操縦性、信頼性、実用性を向上させてきた(Ouyang et al, 2022; Bai et al.)これ らの進歩により、ユーザーの意図を見分けるモデルの能力が向上し、よりユーザーフレンドリ ーで実用的なモデルになりました。さらに、最近の研究では、LLMがAPIや検索エンジン、さ らには他の生成AIシステムなど、他のデジタルツールをプログラムし、制御する可能性がある ことが明らかにされている(Schick et al, 2023; Mialon et al, 2023; Chase, 2022)。これにより、個 々のコンポーネントをシームレスに統合し、より優れた実用性、性能、汎化を実現することが できます。長期的には、これらの傾向は、LLMがコンピュータで通常行われるあらゆるタスク を実行できるようになる可能性を示唆しています。
これまで、生成AIモデルは、キャプションから画像を生成したり、音声からテキストを書き 起こしたりするような、特定のタスクを実行するモジュール型の専門家として主に展開されて きました。しかし、我々は、LLMを追加ツールのための重要なビルディングブロックとして認 識し、より広い視点を採用することが不可欠であると主張する。これらのツールを構築し、包 括的なシステムに統合するには時間がかかり、経済全体の既存のプロセスを大幅に再構成する 必要がありますが、すでに新たな採用傾向が見られるようになっています。LLMは、その限界 にもかかわらず、ライティング支援、コーディング、法的調査などの分野で専門的なアプリケ ーションに統合されつつあり、企業や個人がより広くGPTを採用する道を開いている。
このような補完的な技術の重要性を強調するのは、既製の汎用GPTは、事実の不正確さ、固 有のバイアス、プライバシーへの懸念、偽情報のリスクなどの問題により、さまざまなタスクに おいて信頼性の低い状態が続く可能性があるからです(Abid et al, 2021; Schramowski et al, 2022; Goldstein et al, 2023; OpenAI, 2023a)。しかし、ツール、ソフトウェア、ヒューマンインザルー プシステムなどの特殊なワークフローは、ドメイン固有の専門知識を取り入れることで、これら の欠点に対処することができます。例えば、CasetextはLLMベースの法律研究ツールを提供して おり、弁護士に対してより迅速かつ正確な法律研究結果を提供しています。このツールでは、
7
埋め込みと要約を利用して、GPT-4が法律事件や文書群について不正確な詳細を提供するリスク に対抗しています。GitHub Copilotは、LLMを採用してコードスニペットやオートコンプリート のコードを生成し、ユーザーが専門知識に基づいて受け入れたり拒否したりすることができる コーディングアシスタントである。つまり、GPT-4単体では「今が何時なのかわからない」のは 事実だが、それをウォッチさせるのは簡単なことなのである。
さらに、LLMが特定の性能の閾値を超えると、ポジティブなフィードバックループが生まれ 、様々な文脈でLLMの有用性と使いやすさを高めるツールの構築を支援することができるよう になるかもしれません。これにより、そのようなツールを作成するために必要なコストや工学 的専門知識が低下し、LLMの採用と統合がさらに加速する可能性があります。(LLMは、機械学 習モデル開発において、研究者のコーディングアシスタント、データラベリングサービス、合 成データ生成などの貴重な資産となる可能性もあります。このようなモデルは、例えば、人間 と機械の間でタスクやサブタスクを割り当てる方法を改良することで、タスクレベルでの経済的 意思決定に貢献する可能性があります(Singla et al.、2015;Shahaf and Horvitz、2010)。LLMが 時間の経過とともに改善され、よりユーザーの好みに合うようになれば、継続的に性能が向上 することが予想されます。
8
しかし、こうした流れは、さまざまな深刻なリスクももたらしていることを認識する必要がある。 (Khlaaf他、2022年、Weidinger他、2022年、Solaiman他、2019年)
2.2 オートメーション技術による経済効果
人工知能や自動化技術が労働市場に与える影響については、広範な文献があり、その数は増え続 けています。技術が労働に及ぼす影響を理解するための標準的な枠組みであるとしばしば考えら れている、技能偏重型の技術変化と自動化のタスクモデルという概念は、技術の進歩が非熟練労
働者よりも熟練労働者の需要を高めることを示す研究に端を発している (Katz and Murphy, 1992). この概念を基に、タスクベースの枠組みで技術変化と自動化が労働者に与える影響を探る研究が 数多く行われてきた(Autor et al.、2003;Acemoglu and Autor、2011b;Acemoglu and Restrepo、 2018)。この一連の研究は、ルーチンワークや反復作業に携わる労働者は、ルーチンに偏った技 術変化として知られる現象である、テクノロジーによる置き換えのリスクが高いことを示してい ます。より最近の研究では、テクノロジーのタスク・ディスプレースメント効果とタスク・リイ ンスティテュート効果(新しいテクノロジーがより幅広い労働集約的なタスクの必要性を高める )を区別している(Acemoglu and Restrepo, 2018, 2019).いくつかの研究は、自動化技術が、定型 的な作業に特化した労働者の相対的な賃金低下によって、米国における賃金不平等をもたらした ことを示している(Autor et al., 2006; Van Reenen, 2011; Acemoglu and Restrepo, 2022b)。
先行研究では、AI能力と労働者が異なる職業で行うタスクや活動の重複を推定するために 、様々なアプローチを採用している。これらの方法には、特許の記述を労働者のタスクの記述 にマッピングすること(Webb, 2020; Meindl et al., 2021)、AI能力をO*NETデータベースに記録 された職業能力にリンクすること(Felten et al., 2018, 2023)、AIタスクベンチマーク評価を認 知能力を介して労働者のタスクに整合すること(Tolan et al,2021)、米国の職業のサブセットに ついて自動化の可能性をラベル付けし、機械学習分類器を使用して他のすべての米国の職業に ついてこの可能性を推定する(Frey and Osborne, 2017)、タスクレベルの自動化をモデル化し 、その結果を職業レベルのインサイトに集約する(Arntz et al., 2017)、専門家の予測(Grace et al, 2018)、本稿と最も関連がある、機械学習への適合性について労働者の活動を評価する新し い基準を考案(Brynjolfsson et al., 2018, 2023)。これらのアプローチの中には、タスクレベルで のAI技術への曝露が職業内で多様化する傾向があることを発見したものがある。各職業をタス クの束として考えると、AIツールがほぼすべての仕事をこなすことができる職業は稀であろう 。(Autorら、2022a)は、自動化と拡張のエクスポージャーが正の相関を持つ傾向があることを同
様に発見している。また、LLMの具体的な経済的影響や機会を検証する研究も増えています( Bommasani et al., 2021; Felten et al., 2023; Korinek, 2023; Mollick and Mollick, 2022; Noy and Zhang, 2023; Peng et al.)この仕事と並んで、私たちの測定は、言語モデルと労働市場との幅広い潜在
的関連性の特徴付けに役立ちます。
9
汎用技術(印刷、蒸気機関など)(GPTs)は、広範な拡散、継続的な改善、補完的なイノ ベーションの発生を特徴とする(Bresnahan and Trajtenberg, 1995; Lipsey et al., 2005)。数十年に わたって展開されるその遠大な結果は、特に労働需要との関係で予想が難しい(Bessen, 2018; Korinek and Stiglitz, 2018; Acemoglu et al., 2020; Benzell et al., 2021)。汎用技術の潜在能力をフル に発揮するには、広範な共同発明(Bresnahan and Trajtenberg, 1995; Bresnahan et al., 1996, 2002; Lipsey et al., 2005; Dixon et al., 2021)、新しいビジネス手順の発見を伴うコストと時間のかかる プロセスが必要となる(David, 1990; Bresnahan, 1999; Frey, 2019; Brynjolfsson et al., 2021; Feigenbaum and Gross, 2021).その結果、機械学習技術に関する多くの研究は、システムレベルの 採用に焦点を当て、新規の機械学習の進歩を効果的に利用するためには、組織システムの再設 計が必要な場合があると主張している(Bresnahan, 2019; Agrawal et al., 2021; Goldfarb et al., 2023) 。適切に設計されたシステムは、かなりのビジネス価値をもたらし、企業のパフォーマンスを 向上させることができ(Rock, 2019; Babina et al., 2021; Zolas et al., 2021)、AIツールは発見プロ セスを促進する(Cockburn et al., 2018; Cheng et al.)によって
10
タスク ID職業名 | DWAs タスクの説明 |
14675ComputerSystems コンピュータシステムのパフォー マンスを監視Engineers/Architectsto が 適切な動作を保証
システムの動作を監視し、潜在的な問題を検出 する。
人工肛門や気管切開装置、機械式人工呼 吸器、カテーテル、胃腸管、中心ライン などの侵襲的な機器や装置の設定、操作 、または監視を行う。
利用者の小切手の現金化、クレジットカ
ードの立替処理。 取引完了・発送完了のメールを配信
する。
保護者ボランティアや年長者を子どもた ちの活動に参加させ、集中して複雑な遊 びに参加しやすくする。 保護者ボランティアや年長者を子どもた ちの活動に参加させ、集中力のある複雑 な遊びへの参加を促す。
する。
Nurses診断または治療を操作する
医療用具または機器を使用する。
医療用品または機器を使用するた
めに準備する。
販売またはその他の金融取
引を実行する。 販売またはその他の金融取
引を実行する。
– –
18310Acute Care
。
4668.0 ギャンブリン グケージ作業
15709オンライ ンマーチ員ャント
6529 キンダーガーデ ン
教員(特別支援
教育を除く 6568小学校 教員(特別支援 教育を除く
表1:O*NETデータベースの職業、タスク、および詳細作業活動の例。ギャンブルの檻で働く 人は、直接会って、体を動かして、同じ作業をすると思われるが、オンライン・マーチャント は、コンピュータだけを使って、同じ作業をすると思われることからもわかるように、活動だ けで集計するのは不正確であることがわかる。
LLMがGPTの基準を満たすかどうかをタスクレベルの情報で評価することで、技術と労働の関 係を理解するための2つの視点を融合させることを目指します。
我々は、いくつかの方法で、これらの多様な文献の流れを構築しようと試みている。Felten et al., 2023)を参考に、機械学習や自動化技術を広く取り上げるのではなく、LLMの影響に重点 を置いて分析することにした。さらに、LLM、特にGPT-4を使用して、タスクの露出と自動化の 可能性を評価し、人間のスコアリング作業を強化する新しい方法を提案します。さらに、現代の 米国労働市場における潜在的なエクスポージャーの全体像を把握するため、職業や産業別に調 査結果を集計しています。
3 方法とデータ収集
3.1 米国における職業別活動・タスクデータ
O*NET 27.2 データベース(O*NET, 2023)を使用しています。このデータベースには、1,016 の職 業に関する情報が含まれており、それぞれの詳細作業活動(DWA)とタスクが含まれています 。DWAとは、”プロジェクトの要件を決定するためにスクリプトを研究する “など、タスクを完
11
了するための包括的な行動である。一方、タスクは職業固有の作業単位であり、1つまたは複数 のDWAと関連付けられることがあります。表1に、タスクとDWAのサンプルを示す。使用する2 つのデータセットは以下の通りである。
• 19,265タスク。各タスクには「タスクの説明」と対応する職業があり、ほとんどのタスク は1つ以上のDWAと関連している。
• 2,087個のDWA。ほとんどのDWAは1つ以上のタスクに接続され、タスクは1つ以上のDWA に関連付けられるが、関連するDWAがないタスクもある。
3.2 賃金、雇用、人口統計に関するデータ 労働統計局が提供する2020年と2021年の職業別雇用シリーズから雇用と賃金のデータを入手する
。このデータセットには、職業名、各職業の労働者数が含まれている。
12
職業、2031年の職業レベルの雇用予測、職業に就くために必要な典型的な教育、職業の能力を獲 得するために必要なOJT(On-the-Job Training)(BLS,2022)。BLSが推奨するO*NETへのクロ スウォーク(BLS, 2023b)を使用して、O*NETタスクおよびDWAデータセットと、CPS( Current Population Survey)から得られるBLS Labor Force Demographics(BLS, 2023a)をリンクさ せています。これらのデータソースはどちらも米国政府によって収集され、主に自営業でなく 、文書化され、いわゆる正規経済で働く労働者を捕捉している。
3.3 露出度
GPTまたはGPT搭載システムへのアクセスによって、人間が特定のDWAを実行したり、タスク を完了したりするのに必要な時間が少なくとも50%短縮されるかどうかを評価する指標として 、露出度ルーブリックに基づいて結果を示しています。以下にルーブリックの概要を示します が、完全なルーブリックは A.1 に記載されています。DWA のラベルがある場合、職業レベル で集計する前に、まずタスクレベルで集計する。
露出の概要
場合、露出なし(E0)。
- 同等の品質を維持しながら、活動またはタスクを完了するために必要な時間 が短縮されないか、または最小限に抑えられる場合。
- 以下の基準に従って記述された能力の任意の組み合わせを使用することは、ア クティビティ/タスクのアウトプットの質を低下させる。 直接暴露(E1)の場合。
• ChatGPTやOpenAIのプレイグラウンドで説明されている理論的なLLMやGPT- 4だけで、DWAやタスクの完了に要する時間を少なくとも半分(50%)減らす ことができます。 LLM+ Exposed (E2) の場合。
- LLMにアクセスするだけでは、その活動/タスクを完了するのに必要な時間を 少なくとも半分に減らすことはできないが
- LLMでは、特定の活動やタスクを高品質で完了するために必要な時間を少な くとも半分に短縮できるようなソフトウェアを追加開発することが可能です 。その中で、画像生成システムへのアクセスもカウントしている。 a 実際には、A.1 のルーブリックにあるように、アノテーションを容易にするために、画像機 能へのアクセスを別に分類しています(E3)が、すべての分析では E2 と E3 を組み合わせてい 私たちは、一定の品質を保ちながら、特定のDWAやタスクを完了するのに必要な時間を50 ます。 %削減できる可能性があることを露出の閾値として設定しました。生産性の大幅な向上を実現 するアプリケーションに最も多く、かつ即座に採用されることが予想されます。この閾値は多 少恣意的ではあるが、アノテーターが解釈しやすいように選択された。 そして、GPT-4が作成したアノテーションを、本論文の解析の基礎となる露出ルーブリック 13
を用いて収集しました。
• 人間の評価O*NETのDWA(Detailed Worker Activity)とO*NETのタスクのサブセットにル ーブリックを適用し、DWAとタスクを集計することで、人間のアノテーションを取得し ました。
r さらに、選択した閾値にかかわらず、現実のタスク時間の短縮は、我々の推定値よりもわずかに、あるいは大幅 に低くなる可能性が高いと推測されたため、比較的高い閾値を選択することになりました。私たちの検証用ラベルで は、これは、GPTまたはGPTを搭載したアプリケーションがタスクのコア部分を実行できるか、ほぼすべてのタスク を実行できるかに密接に対応していることがわかりました。
14
比較 GPT-4、ルーブリック1、人間
GPT-4、ルーブリック2、ヒュ
ウェイト付け イヤーズ 契約内容 Pン
ーマン GPT-4、ルーブリック1、GPT-4
E1 80.8% E1 + .5*E2 65.6% E1+E2 82.1%
E1 81.8% E1 + .5*E2 65.6%
E1+E2 79.5% E1 91.1%
E1 + .5*E2 76.0% E1+E2 82.4%
0.223 0.591 0.654
0.221
0.538 0.589
0.611
0.705 0.680
、ルーブリック2
表2:一致スコアとピアソン相関スコアのモデルと人間の比較。合意スコアは、2つのグループ がアノテーション(例:E0、E1、E2)に同意する頻度を見ることによって決定される。論文で は、GPT-4, Rubric 1を使用しています。
のスコア9 をタスクと職業レベルで評価しました。これらの注釈の品質を保証するために 、著者らはタスクとDWAの大規模なサンプルを個人的にラベル付けし、OpenAIのアライ メント作業の一環としてGPTの出力を広範囲にレビューした経験豊富な人間の注釈者を参 加させた(Ouyang et al.、2022)。
• GPT-4のレーティング。GPT-4の初期バージョン(OpenAI, 2023b)と同様のルーブリック を実施したが、DWAではなく、すべてのタスク/オキュペーションのペアで実施した。人 間のラベルとの一致を高めるために、ルーブリック(この場合、モデルへの「プロンプト 」として使用される)にわずかな修正を加えました。完全な一致率は表2に示す通りであ る。
(i)ǖは、上記の暴露ルーブリックのE1に相当し、ある職業における暴露タスクの割合の下限 を表すと予想される’ (ii)ǖは、E1と0.5*E2の合計であり、ここで、E2の0.E2の0.5倍は、補完的な ツールやアプリケーションを使用して技術を展開する際に追加投資が必要になる場合の曝露を 考慮したものです。(iii) ǗはE1とE2の合計で、GPTおよびGPT搭載ソフトウェアの最大曝露量を 評価するための曝露上限値です。注釈グループと測定法の間の一致を表2にまとめた。つまり、 ChatGPTやOpenAI Playgroundのようなツールを使って直接公開されるすべてのタスクは、何らか の補完的なイノベーションを必要とするタスクの2倍公開されていると見なされます。
3.4 本手法の限界
3.4.1 人間の主観的な判断
15
我々のアプローチの基本的な限界は、ラベリングの主観性にある。本研究では、GPTモデルの 能力を熟知しているアノテーターを採用しています。しかし、このグループは職業的に多様で はないため、GPTが馴染みのない職業のタスクを実行する際の信頼性や有効性に関して偏った 判断を下す可能性があります。しかし,GPTの信頼性や有効性についての判断が偏る可能性が ある.
9 著者は、高度な身体性または手先の器用さを明らかに必要とする DWA を注釈し、契約注釈者は、DWA の注釈
を集約した後、関連する DWA がないタスクおよび 明確なタスクレベルの注釈がないタスクを含むサブセットと、残
りのアクティビティを注釈した。
‘最近、マルチモーダルGPTモデル(OpenAI, 2023b)が進歩しているにもかかわらず、視覚機能は評価に含まれていない
。
露出します。
16
図2:職業別のGPT曝露量について、人間評価者(x軸)とGPT-4評価(y軸)は高い一致度を示 している。職業別被ばく量の集計方法であるǖ法に従った被ばく量の最高値付近では、GPT-4の 評価が人間の評価よりも低くなる傾向がある。ここでは、生の散布図とビン散布図を示す。露 出度評価のトップエンド付近では、ヒトは平均して職業を露出と評価する傾向がある。
その職業における多様なタスクのこれは、これらの結果を検証する上で、今後の重要な課題で ある。
3.4.2 GPT-4でGPTを測定する。
最近の研究では、GPT-4は、複雑な分類法を適用し、言葉遣いや強調点の変化に対応できる、効 果的な識別器として機能することが示されています。GPT-4 のタスク分類の結果は、ルーブリ ックの文言、プロンプトの順序と構成、ルーブリック内の具体例の有無、提供される詳細レベ ル、および主要用語の定義の変更に敏感である (OpenAI, 2023b) 。小規模な検証セットで観察さ れた結果に基づいてプロンプトを反復することで、モデルの出力とルーブリックの意図の一致 度を高めることができる。そのため、人間に提示されるルーブリックとGPT-4で使用されるルー ブリックには、若干の違いがあります。これは、人間のアノテーションに過度の影響を与える ことなく、モデルを合理的なラベルに導くために意図的に行われた決定です。その結果、複数 のアノテーションソースが使用されていますが、どのソースも他のソースと比較して決定的な グランドトゥルースとみなされるべきものではありません。分析では、人間のアノテーション による結果を主要な結果として提示することにします。LLM分類のための効果的なルーブリッ クを作成する上で、さらなる改善と革新が可能である。しかし、GPTシステムの全体的な使用状 況に関して、職業レベルでの人間の評価とGPT-4の評価の間に高い一致が観察されます(表2、 図2参照)。
3.4.3 その他の弱点
17
• タスクベースのフレームワークの妥当性職業をどこまで完全にタスクに分解できるかは不 明であり、このアプローチによって、職務遂行に暗黙のうちに必要とされる特定のカテゴ リーのスキルやタスクが体系的に省かれる可能性もある。さらに、タスクはサブタスクで 構成されることもあり、その中には自動化しやすいものもある。また、タスクの中には、 自動化の前段階として機能するものもあります。 下流作業の完了が前段階の作業に依存するように、他の作業にも影響を与える。もし、タ スクベースの内訳が、ある職業におけるほとんどの作業がどのように行われるかを正しく 表していないのであれば、我々の暴露分析はほとんど無効となる。
18
• 相対的な測定と絶対的な測定。例えば、被ばく量が0.6と推定される職業は、被ばく量が 0.1の職業よりはるかに多いと解釈するのがよいでしょう。
• 専門知識とタスクの解釈の欠如。人間のアノテーターは、ラベリングプロセスにおいて、 各DWAにマッピングされた特定の職業を知らないことがほとんどであった。そのため、 タスクと職業を集約するロジックが不明確であり、表1に示すように、ラベルに明らかな 不一致がありました。様々な集計方法を試した結果、最大マッチング方式でも のアプローチ(人間<>モデルのラベルが存在する場合は、それに一致するものを使用する )でも、一致度は比較的一貫していました。最終的には、不一致が大きいタスク/オキュ ペーションのペアについて、追加のラベルを収集しました。
• 将来的なものであり、変更される可能性がある、初期の証拠もある。将来のLLMアプリケ ーションを正確に予測することは、専門家であっても依然として大きな課題である( OpenAI, 2023b)。出現する能力、人間の認識の偏り、技術開発のシフトはすべて精度に影 響する可能性がある また、LLMが作業者のタスクに与える潜在的な影響に関する予測の信頼性についても言 及します。当社の予測は、本質的に未来志向であり、現在のトレンド、証拠、技術的可能 性の認識に基づいています。そのため、この分野で新たな進展があれば、予測は変化する 可能性があります。例えば、現在ではLLMが影響を与える可能性が低いと思われる作業 も、新しいモデルの導入により変化する可能性があります。逆に、一見可能性が高いと思 われるタスクが、言語モデルの適用を制限する予期せぬ課題に直面するかもしれない。
• 不一致の原因。不一致の原因を厳密に調べたわけではありませんが、人間とモデルの評価 が「行き詰まる」傾向がある箇所がいくつか見受けられました。
– LLMが理論的には役立つ、あるいは達成できるかもしれないが、LLMを採用すること で複数の人が習慣や期待を変える必要があるタスクや活動(例:会議、交渉など)
- – 現在、人間の監視を必要とする何らかの規制や、人間の判断や共感を示唆する規範が あるタスクや活動(例:意思決定、カウンセリング)。
- – 合理的にタスクを自動化できる技術がすでに存在するタスクまたは活動(例:予約 )。 4 結果 汎用的な技術は比較的まれであり、普及性、時間の経過による改善、重要な共同発明やスピル オーバーの発生といった特徴がある(Lipsey et al, 2005)。GPT(Generative Pre-trained Transformers)が労働市場に与える影響についての評価は、全要素生産性や資本投入の可能性を
19
考慮していないため、限定的である。労働への影響に加え、GPTはこれらの次元にも影響を与 える可能性がある。
現段階では、特定の GPT 基準は他の基準よりも評価しやすい。例えば、これらのモデルの能 力と補完的なアプリケーションやシステムの成長がもたらす長期的な影響を評価することは、 より実現可能性が高い。この初期段階での私たちの主な焦点は、GPT言語モデルが経済に広範 な影響を与えるという仮説を検証することです。これは、(Goldfarb et al., 2023)がアルゴリズ ムカテゴリーとしての機械学習のGPT可能性を評価するために求人情報を通じて機械学習の拡散 を分析したのと似ています。求人票を使ったり、機械学習全般を研究したりするよりも、人間 とGPTの両方のアノテーションを用いたタスク評価アプローチを調べることで、GPTの影響が 少数の類似タスクや職業に限定されているかどうかを明らかにできるかもしれません。
20
この結果は、GPTがタスクレベルの能力に基づいて、米国経済の多様な職業に大きな影響を 与える可能性があることを示唆しており、汎用技術の重要な特性を示している。以下のセクショ ンでは、様々な役割と賃金体系における結果について説明する。米国経済における産業の相対的 なエクスポージャーに関するその他の結果は、付録Dに記載されています。
4.1 要約統計
これらの測定値の要約統計は、表3に記載されています。人間とGPT-4のアノテーションの両方 から、平均的な職業レベルの Ǽ 値は0.14と0.15の間にあることが示され、中央の職業では、約 15%のタスクが GPTに直接さらされることが示唆されます。この数値は、ǖでは30%以上、で は50%以上に増加します。偶然にも,人間とGPT-4のアノテーションも,データセットの全タス クの15%から14%をGPTにさらされているとしてタグ付けしています.
ǽの値から、80%の労働者が少なくとも1つのタスクがGPTにさらされる職業に属しており、
19%の労働者が半分以上のタスクがさらされるとラベル付けされている職業に属していると推定
される。このように、GPTの影響を受けるタスクは多岐にわたりますが、その可能性を十分に
発揮させるためには、より広いシステムにGPTを組み込むことが必要です。汎用的な技術にあ
りがちな「共同発明」の壁が、GPTの経済的な普及を妨げている可能性があります。また、人
間の監視の必要性を予測することは、特にモデルの能力が人間と同等かそれ以上であるようなタ
スクでは困難です。しかし、GPTやGPTを搭載したシステムの利用者は、次第にGPTの技術に慣
れ親しんでいくでしょう。
特に、いつ、どのようにその出力を信頼するのかを理解するという点で、時間が経つにつれて、そ の出力は変化していきます。
職業レベル 暴露量 人間 ジ ーピーティーフォー
ひれつ 標準装備 ひれつ 標準装備
0.14 0.14 0.14 0.16 0.30 0.21 0.34 0.22 0.46 0.30 0.55 0.34
タスク レベル エクス ポージャー ヒト
ジー ピーティーフォー
ひれつ 標準装備 ひれつ
0.15 0.36 0.31 0.37 0.47 0.50
標準装備
0.14 0.35 0.35 0.35 0.56 0.50
21
4.2 賃金と雇用
表3: ヒトとモデルの暴露データの要約統計値。
図3では、経済全体の被曝強度を示している。第1図は労働者総数、第2図は職業総数で示したも
のである。グラフ上の各ポイントは、x軸に示された被ばくレベル(、)を持つ労働者(お
よび職業)の推定割合をy軸に表しています。例えば、人間のアノテーターは、労働者の2.4%が 50 -exposed、18.6%が50 -exposed、49.6%が50 -exposed、ここで50%の閾値は以下からきています。
x軸、労働者の割合は図2の右プロットのy軸に由来する。の任意の地点で の間の垂直距離は、GPTへの直接的な曝露を超えたツールやアプリケーションに起因する曝露ポ テンシャルを表しています。被ばく量の分布は、作業員と
22
図3:経済全体の暴露強度。左は影響を受ける職業の割合、右は影響を受ける労働者の割合で表 示。職業別、労働者別に見ると、被曝量の分布はほぼ同じであり、労働者の職業への集中は、 GPTやGPT搭載ソフトウェアへの職業的被曝と高い相関がないことを示唆している。ただし、 特定のドメインに対するGPT搭載ソフトウェアの開発への投資とは、より高い相関を持つ可能 性があると考えられる。
このことから、GPTやGPT搭載ソフトウェアへの職業的曝露と、職業における労働者の集中度 は、強い相関を持たないことが示唆される。
職業レベルで集計すると、図4に示すように、人間のアノテーションとGPT-4のアノテーシ ョンは定性的な類似性を示し、相関する傾向がある。人間のアノテーションは、GPT-4のアノ テーションと比較して、高賃金職種の被曝量をわずかに低く見積もっています。低賃金で被曝 量が多い職業と高賃金で被曝量が少ない職業が多数存在しますが、双点プロットの全体的な傾 向から、賃金が高いほどGPTへの被曝量が増加することがわかります。
GPTの潜在的な被曝量は、現在の雇用水準とほとんど相関がないように思われる。図4では、 GPT-4による総合的な曝露量の評価を職業レベルに集約し(Y軸)、総雇用者数の対数(X軸) と比較しています。どちらのプロットも、雇用レベルの違いによるGPTエクスポージャーの有 意な差を明らかにしていない。
4.3 スキルの重要性
本節では、ある職業におけるスキルの重要度(O*NETデータセットに注釈がある)と、我々の 露出度測定値の関係を調査する。まず、O*NETが提供する基本スキル(スキルの定義は付録B に記載)を用いて、各職業のスキル重要度指標を正規化し、解釈しやすくする。次に、曝露指 標(, )に対して回帰分析を行い、スキルの重要性と曝露の間の関連性の強さを検証する。
その結果、科学や批判的思考のスキルの重要性は、露出度と強い負の相関を示し、これらの スキルを必要とする職業は、現在の言語モデルの影響を受けにくいことが示唆された。逆に、
23
プログラミングやライティングのスキルは、露出度と強い正の相関を示し、これらのスキルが 必要な職業は、言語モデルの影響を受けやすいことを示唆しています(詳細な結果は表5を参照 )。
4.4 参入の障壁
次に、職種の違いによる被曝の差別化を理解するために、参入障壁を検討する。そのひとつが 、O*NETの職業レベル記述子である “Job Zone “である。ジョブゾーンとは、以下のようなグル ープです。
24
図4:双点プロットは,人間の評価者とGPT-4の両方によって評価された,様々な職業における 言語モデル(LLM)への曝露を表している.これらのプロットは、職業レベルのGPT(ǽ)への 曝露を、職業内の総雇用者数の対数および職業の年間賃金中央値の対数と比較しています。い くつかの矛盾が存在するものの、人間の評価とGPT-4の評価の両方が、高賃金の職業がLLMに さらされる傾向があることを示しています。また、低賃金の職業は、ルーブリックに基づき、 高い露出度を示すものが多数あります。平均的な露出度を算出する際、コアタスクは補助的タ スクの2倍の重みを持つ。雇用と賃金のデータは、2021年5月に実施されたBLS-OES調査から得 たものである。
25
図5:5つのジョブゾーンに属する職業のǖ露出度評価(類似の職業を教育、経験、OJTのレベル に応じて分類したグループ)。
(a)その職業に就くために必要な教育レベル、(b)その仕事をするために必要な関連経験の量、(c)
その仕事をするために必要なOJTの程度が似ている職業を指す。ONETのデータベースでは、5
つのジョブゾーンがあり、ジョブゾーン1は最も少ない準備期間(3ヶ月)、ジョブゾーン5は最
も多い準備期間(4年以上)が必要であることを示している。ジョブゾーン1では30,230ドル、ジ
ョブゾーン5では80,980ドルと、必要な準備のレベルが上がるにつれて、ジョブゾーン間で所得
の中央値が単調に上昇することが確認された。
すべての指標(Ǽ、Ǽ、)は同じパターンを示しています。つまり、露出はジョブゾーン1か ら増加します。
は、Job Zone 4に移行し、Job Zone 5では同程度か減少しています。図3の5と同様に、被ばく量 の閾値ごとに労働者の割合をプロットしています。その結果、ジョブゾーン1からジョブゾーン 5において、50%以上の露出がある職業の労働者の割合は、平均して、がそれぞれ0.00%(ジョブ ゾーン1), 6.11%(Job Zone 2), 10.57% (Job Zone 3), 34.5% (Job Zone 4), 26.45% (Job Zone 5) であ ることが分かりました。
4.4.1 入社に必要な一般的な学歴
ジョブゾーンへの参加は、必要な教育(それ自体がスキル習得の代理である)と必要な準備の 両方を考慮するため、これらの変数を分離するためのデータを探すことにした。労働統計局の 職業データから、2つの変数を使用する。労働統計局の職業データから、「職業に就くために必 要な標準的な教育」と「職業能力を獲得するために必要なOJT」の2つの変数を用いる。これら の要素を検討することで、労働力に影響を与える可能性のあるトレンドを明らかにすることを 26
目的としています。なお、学歴や職業訓練の必要性に関するデータが不足している労働者が350 万4,000人いるため、総括表からは除外しています。
学士号、修士号、専門職学位を持っている人は、学歴のない人よりもGPTやGPT搭載ソフト に親しんでいることが分析からうかがえる(表7参照)。興味深いことに、大学卒業程度の学歴 を持つが学位は持っていない人が、GPTやGPT搭載ソフトウェアに高いレベルで接しているこ ともわかった。参入障壁の表を見ると、GPTに触れる機会が最も少ない職種は、最も長いトレー ニングを必要とするため、能力達成後の報酬(中央値)が低くなる可能性があることがわかりま す。逆に、OJTが不要な仕事、あるいはインターンシップやレジデンスが必要な仕事は、より高 い収入を得られるが、GPTの影響を受けやすいと考えられる。
27
グループ 人間
人間
人間
モデル
モデル
モデル
最高値の分散
最も被ばく量の多い職業
通訳・翻訳者 調査研究員 詩人・作詞家・創作作家 動物科学者 広報スペシャリスト
調査研究員 作家・著述家 通訳・翻訳者 広報スペシャリスト 動物科学者
数学者
税務署員
金融クオンツアナリスト
作家・著述家 Web・デジタルインターフェースデザイナ
ーヒューマンは15職種を “完全露出 “とした。
数学者 コレスポンデンス・クラーク ブロックチェーンエンジニア コートリポーターと同時通訳者 校正者・コピーマーカー
数学者 ブロックチェーンエンジニア コートリポーターと同時通訳者 校正者・コピーマーカー コレスポンデンス・クラーク
会計士・監査法人 ニュースアナリスト、記者、ジャーナリス ト リーガルセクレタリー、アドミニストレー ティブアシスタント クリニカルデータマネージャー 気候変動政策アナリスト
% エクスポ ージャー
76.5 75.0 68.8 66.7 66.7
84.4 82.5 82.4 80.6 77.8
100.0 100.0 100.0 100.0 100.0
100.0 95.2 94.1 92.9 90.9
100.0 97.1 96.4 95.5 95.2
100.0 100.0
100.0
100.0
100.0
このモデルでは、86の職業を “完全露出 “としました。
サーチマーケティングストラテジスト 14.5 グラフィックデザイナー 13.4 投資ファンドマネージャー 13.0 ファイナンシャルマネージャー 13.0 保険鑑定士、自動車損害賠償 12.6
表4:各測定によると、最も曝露量が多い職業。最後の行は、↪Ll_1D70E2 の値が最も高い職業 をリストアップしており、脆弱性予測のばらつきが最も大きいことを示しています。暴露率は、 GPT()またはGPT搭載ソフトウェア(𝛼と𝜁)に暴露された職業のタスクの割合を示し、暴露 とは、タスクを完了するのにかかる時間が50%以上減少することを意味します(暴露基準 A.1 を 参照。このように、この表に記載されている職業は、GPTやGPTを利用したソフトウェアが、
28
労働者の作業時間を大幅に短縮することができると推定される職業である。 しかし、このような技術によって、彼らの仕事が完全に自動化されるとは限りません。
29
基本スキル
(std err) (std err) (std err)
すべてのスキル重要度スコアは、0から1の間になるように正規化されています。
定数
アクティブリスニング
数学
リーディングコンプリケ ーション
サイエンス 話すこと
ライティング アクティブラーニング
クリティカルシンキング 学習戦略
モニタリング プログラミング
0.082*** -0.112*** (0.011) (0.011)
0.128** 0.214*** (0.047) (0.043)
-0.127*** 0.161*** (0.026) (0.021)
0.153*** 0.470*** (0.041) (0.037)
-0.114*** -0.230*** (0.014) (0.012)
-0.028 0.133*** (0.039) (0.033)
0.368*** 0.467*** (0.042) (0.037)
-0.157*** -0.065** (0.027) (0.024)
-0.264*** -0.196*** (0.036) (0.033)
-0.072* -0.209*** (0.028) (0.025)
-0.067** -0.149*** (0.023) 0.020)
0.637*** 0.623*** (0.030) (0.022)
0.300*** (0.057)
0.449*** (0.027)
0.787*** (0.049)
-0.346*** (0.017)
-0.346*** (0.017)
0.294*** (0.042)
0.566*** (0.047)
0.028 (0.032)
-0.129** (0.042)
-0.346*** (0.034)
-0.232*** (0.026)
0.609*** (0.024)
表5 O*NETの基本スキルにプログラミングスキルを加えた各スキルについて,職業レベルでGPT に触れる機会を重要度に回帰させたもの.スキルの説明は付録Bに記載されています。
中央値 収入 | トットエン プ (000s) | HM | HM |
$30,230 $38,215 $54,815 $77,345 $81,980 | 13,100 73,962 37,881 56,833 21,221 | 0.03 0.04 0.07 0.12 0.11 0.14 0.23 0.18 0.23 0.13 | 0.06 0.06 0.16 0.20 0.26 0.32 0.47 0.51 0.43 0.45 |
仕事 プレパラート 教育
職業例 HM
必要なゾーン
必須
- 1 なし・少ない 高等学校 食品調理従事者。 (0-3ヶ月) ディプロマま 食器洗い乾燥機、フロア
- 2 一部(3~12ヶ たは サンダー
月) GED(otional) 注文係、接客係、テラ
0.09 0.08 0.24 0.27 0.41 0.51
0.71 0.85 0.63 0.76
3 4
高等学校卒業 ー
中(1~2年 資格 電気工事士、理容 ) 職業訓練校、職 師、医療アシスタ
業訓練、準学士 ント
号
5 2~4年) 学士号(Bachelor’s データベース管理者、グ
相当する(
degree ラフィックデザイナー、 広範囲(4年以 コスト見積もり担当者
上) 修士号以上 薬剤師、弁護士、天文学 者
30
表6:ジョブゾーン別のGPTへの曝露量の平均値。各ジョブゾーンについて、各構成職業の年収 の中央値(米ドル)と、そのジョブゾーンの全職業の労働者数の合計(千人)も示している。
31
オン・ザ・ジョブ・トレーニン 中央値収入 総人口(千人) H M H M グが必要
なし
アプレンティスシップ インターンシップ/レジデンシー 短期間のOJT(On-the-Job Training)。 中期のOJT(オン・ザ・ジョブ ・トレーニング 長期間のOJT(On-the-Job Training)。
H M
0.63 0.76 0.07 0.10 0.55 0.71 0.32 0.34
0.32 0.38 0.28 0.33
$77,440 $55,995 $77,110 $33,370 $46,880 $48,925 90,776 3,066 3,063 66,234 31,285 5,070 | 0.20 0.16 0.01 0.02 0.16 0.06 0.11 0.15 0.09 0.12 0.08 0.10 | 0.42 0.46 0.04 0.06 0.36 0.38 0.21 0.25 0.21 0.25 0.18 0.22 |
表7:職業別の平均暴露スコア(仕事の能力を獲得するために必要なOJTのレベル別にグループ 化)。露出度スコアの他に、各職業の年収の中央値、各グループの労働者の総数(単位:千人 )も表示している。
32
5 測定法のバリデーション 5.1 これまでの取り組みとの比較
本論文は、AIおよび/または自動化の進展に伴う職業上の曝露を検討する、これまでの多くの実証 研究を基にすることを目的としている。これまでの研究は、以下のような様々な方法を用いている 。
- O*NETのような職業分類を利用して、どの職業が定型的なものか非定型的なものか、手動 タスクか認知タスクかを特徴づける(Autor et al, 2003; Acemoglu and Autor, 2011a)。
- タスクのテキスト記述と特許の技術的進歩の記述の対応付けを行う。(コーガン他、2021 年、ウェブ、2020年)
- AIシステムの能力を職業能力に結びつけ、その能力が必要とされる職業への曝露推定値を 集計する。(フェルテンら、2018年、2023年)
- AIタスクベンチマーク評価(ImageNet、Robocupなど)の結果を、認知科学文献から抽出 した14の認知能力セットを通じて、59の作業者タスクにマッピングする。(Tolanら、2021 年)
- 専門家が高い信頼性を持つO*NET職業群の自動化可能性を専門家がラベル付けし、確率的 分類器と組み合わせて残りのO*NET職業群の自動化可能性を推定する。(フレイとオズボ ーン、2017年)
- 労働者が経済活動で行っている活動の「機械学習への適合性」(SML)を評価するための ルーブリックを開発する(Brynjolfsson and Mitchell, 2017; Brynjolfsson et al, 2018, 2023). 表8では、これらの先行研究の多くについて、一連の要約統計値を示している。 本稿の方法論は、主に、O*NETデータベースで報告されているLLM能力と労働者のタスク の重複を評価するためのルーブリックを開発することによって、SMLアプローチを基礎として いる。表9は、我々の新しいLLM曝露測定値を、(Feltenら、2018)(表中の「AI Occupational Exposure Score」)、(Frey and Osborne、2017)(Frey & Osborne Automation)、(Webb、2020 )の3技術すべてからのスコア、(Acemoglu and Autor、2011a)、(Brynjolfssonら、2018、2023 )(SML)からの職業レベルの曝露測定値に対してOLS回帰した結果です。また、コントロー ルとして、最新のBLS職業雇用調査から年率換算した職業給与を使用する。本稿では、以前の 取り組みによって予測された新しいスコアを表す4つの個別の出力変数がある。 GPT-4 Exposure Rating 1は、GPT-4で評価される全体的な露出のルーブリックに対応し、完全 な露出の可能性を1、露出の可能性がないことを0、部分的な露出(我々のラベリングスキーム のE2)を0.5とする。GPT-4 Exposure Rating 2は、全体的な暴露について同様に採点されますが、 プロンプトが若干異なります。結果は、2つのプロンプトで非常に似ています。GPT-4自動化評
33
価では、LLMによる自動化露出なしを0、完全自動化を1、レベル2、3、4をそれぞれ0.25、0.5、 0.75として、当社の「T」ルーブリックを適用しています。最後に、人間による暴露評価は、 GPT-4の暴露評価1と同じルーブリックを表していますが、論文の前のセクションで説明したよ うに、人間によって採点されています。これらの結果は、上に示した統計のǖセットに対応する 。
各タイプの測定にまたがる結果は一貫している。我々は、一般的に正の、統計的に LLMの曝露指標と、ソフトウェアやAIを対象とした過去の測定結果との間には、有意な相関が
ある。興味深いことに、職業別のSML露出度スコアは、本稿で開発した露出度スコアと有意か つ正の相関を示し、類似のアプローチを用いた2つの研究の間に結束性があることを実証してい る。WebbのソフトウェアとAIの特許に基づく指標、SML、および正規化(Demeaned)された
34
GPT-4 暴露等級1
GPT-4 暴露等級2
人体暴露評価
ソフトウェア(ウェッブ)
ロボット(ウェッブ)
エーアイ(ウェッブ)
機械学習への適性 ノーマライズ・ルーティン・ -3.05 -0.46 コグニティブ
ノーマライズド・ルーティン -1.81 -0.81
・マニュアル AI職業性曝露スコア フレイ&オズボーン オートメ ーション
Log Avg.給与
1.42 3.09 0.00 0.07
10.13 10.67
みん 25th Perc. 0.00 0.13
中央値 75th Perc 0.34 0.50
0.24 0.40
0.29 0.47 50.00 75.00 52.00 69.00 55.00 82.00 2.95 3.12 0.10 0.63
-0.11 0.73
3.56 4.04 0.59 0.88
11.00 11.34
マッ 意味 Std.偏差 カウ クス 値ント 1.00 0.33 0.22 750
0.98 0.26 0.20 750
0.84 0.29 0.21 750 100.00 50.69 30.05 750 100.00 48.61 28.61 750 100.00 54.53 29.65 750
3.55 2.99 0.18 750 3.42 0.07 0.86 750
2.96 0.05 1.01 750
6.54 3.56 0.70 750 0.99 0.50 0.38 681
12.65 11.02 0.45 749
0.00 0.09 0.00 0.09 1.00 25.00 1.00 22.00 1.00 28.00 2.60 2.84
表8:AIと自動化に対する職業的曝露を測定する一連の先行研究の要約統計。また、本作品で新 たに発表された測定値の要約統計値も含めている。我々は、(Webb, 2020)からのすべての測 定値、(Acemoglu and Autor, 2011a)からの正規化ルーチン認知・マニュアルスコア(職業グル ープの不完全なマッチングのため、平均値が0から若干ずれることがある)、(Brynjolfsson and Mitchell, 2017; Brynjolfsson et al., 2018, 2023)からの機械学習の適否、(Felten et al, 2018)からの AI職業曝露、(Frey and Osborne, 2017)からのオートメーション曝露を含む。マッチング可能な 限り多くの職業を含めていますが、これらの指標の開発に伴いO*NETの分類が変更されているた め、最新版のO*NET 6桁の職業から一部の役割が欠落している可能性があります。
を標準偏差で割ったもの)日常的な認知スコアは、いずれもいくつかの指標と正の相関を示し た。
ソフトウェア、SML、ルーチン認知の各スコアは、いずれも LLM への曝露スコアと 1%水 準で正の統計的有意な関連を示している。(Webb,2020)のAIスコアの係数も5%水準で正で統計 的に有意であるが、3列目と4列目のLLMへのエクスポージャー全体に関する二次プロンプトは 、統計的に有意な関係を示していない。ほとんどの場合、AI職業曝露スコアは、我々の曝露指標 と相関がない。ウェッブのロボット暴露スコア、ルーチン手動タスクの内容、および(Frey and Osborne, 2017)の総合的なAutomationメトリックはすべて、他の測定値を条件として、我々の主 要なGPT-4および人間による総合暴露評価と負の相関がある。この負の相関は、物理的作業の LLMへの曝露が限定的であることを反映しています。手作業は、LLMにはもちろん、当分の間 、追加のシステム統合を伴うLLMにもさらされることはないでしょう。私たちの自動化ルーブ リックの結果は、(Frey and Osborne, 2017)の測定値とも相関がない。
Feltenら、2018)や(Frey and Osborne、2017)との相関が低いのは、アプローチの違いによ って説明できる可能性があります。DWAやタスクレベルのスコアリングから職業まで集計する のではなく、(SML論文や私たちの論文のように)AI能力を労働者の能力にリンクさせたり、
35
職業の特徴に基づいて直接エクスポージャーをスコアリングすることは、職業の内容に関する 少し異なる視点を提供する。
すべての回帰において、2 は 60.7% (列 3) から 72.8% (列 5) の間であった。このことは、 LLMの能力に明示的に着目した我々の指標には、28~40%の説明不能な分散があることを示唆 している。
を他の測定値と比較しています。特にAI関連の露出度スコアの場合、他の測定値を組み合わせ ることで、我々のスコアと強い相関を持つことが予想されます。しかし、以前の取り組みでは 、LLM技術の将来の進歩に関する情報は限られていました。私たちは、将来の機械学習技術に 対する理解も同様に、今日のルーブリックでは不完全にしか捉えられないと予想しています。
36
GPT-4ばく露評価1GPT-
4ばく露評価2 (3)
0.00111∗∗∗ (0.00031)
−0.00377∗∗∗ (0.00034)
0.00036 (0.00030)
0.28468∗∗∗ (0.04404)
0.04743∗∗∗ (0.00872)
-0.09390∗∗∗ (0.00817)
-0.01537 (0.01160)
-0.00364 (0.02007)
0.04863∗∗∗ (0.01860)
-0.96117∗∗∗ (0.26365)
680.00000 0.60737
ヒトばく露評価
(5)
0.00096∗∗∗ (0.00031)
−0.00371∗∗∗ (0.00029)
0.00067∗∗ (0.00030)
0.19514∗∗∗ (0.03990)
0.03568∗∗∗ (0.00671)
−0.11045∗∗∗ (0.00741)
0.00630 (0.00918)
-0.03890∗∗ (0.01883)
0.02531 (0.01727)
-0.47078∗ (0.24684)
680.00000 0.71213
ソフトウェア(ウェッブ)
ロボット(ウェッブ)
エーアイ(ウェッブ)
機械学習への適性
ノーマライズ・ルーティン・コ グニティブ
ノーマライズド・ルーティン・ マニュアル
AI職業性曝露スコア フレイ&オズボーン オートメー
ション
Log Avg.給与
(1)
0.00113∗∗∗ (0.00031)
−0.00378∗∗∗ (0.00032)
0.00080∗∗∗ (0.00030)
0.29522∗∗∗ (0.04503)
0.06601∗∗∗ (0.00886)
−0.11147∗∗∗ (0.00785)
0.00993 (0.01107)
-0.03024∗ (0.01835)
0.05804∗∗∗ (0.01870)
(2)
0.00123∗∗∗ (0.00031)
-0.00405∗∗∗ (0.00031)
0.00090∗∗∗ (0.00029)
0.26888∗∗∗ (0.04418)
0.06868∗∗∗ (0.00894)
−0.11371∗∗∗ (0.00789)
0.02465∗∗ (0.01059)
-0.03950∗∗ (0.01841)
-0.45743∗∗∗ (0.15327)
681.00000 0.68212
(4)
0.00119∗∗∗ (0.00031)
-0.00399∗∗∗ (0.00033)
0.00045 (0.00030)
0.26245∗∗∗ (0.04342)
0.05015∗∗∗ (0.00879)
-0.09561∗∗∗ (0.00818)
-0.00265 (0.01114)
-0.01217 (0.01972)
−0.39935∗∗∗ (0.15017)
681.00000 0.60198
(6)
0.00101∗∗∗ (0.00031)
−0.00383∗∗∗ (0.00028)
0.00071∗∗ (0.00030)
0.18373∗∗∗ (0.03886)
0.03659∗∗∗ (0.00669)
-0.11152∗∗∗ (0.00744)
0.01252 (0.00845)
-0.04253∗∗ (0.01858)
-0.17706 (0.13256) 681.00000
0.71126
定数 −1.12937∗∗∗
(0.26859) N 680.00000
2
0.68741
表9:GPT-曝露コアの先行取り組みへの回帰。AIや自動化に対する職業曝露を定量化するための 先行取り組みに関するルーブリックからの曝露指標からの回帰係数。また、2021年5月のBLS- OES調査から年率換算した賃金を含めている。各測定値は、(Acemoglu and Autor, 2011a)のルー チン認知とルーチン手動のスコアを除き、元の尺度のままである。この2つのスコアは、平均0 、分散1に標準化されている。一般に、これまでの取り組みと強い正の相関が見られるが、新し い尺度ではまだ説明できない大きな残余の分散がある。第1列と第2列は、GPT-4の評価から得 られた、主なᴥ露出指標に基づいている。3列目と4列目は、GPT-4で評価された、堅牢性のため に若干異なる類似の露出度ルーブリックに基づいています。5列目と6列目は、1列目と2列目と 同じルーブリックに基づく人間の評価を反映しています。
37
6 ディスカッション 6.1 汎用技術としてのGPT
本稿の前半で、GPTが汎用技術に分類される可能性について述べた。この分類では、GPTが3つの 中核的な基準、すなわち、経時的な改善、経済全体への普及、補完的なイノベーションを生み出 す能力を満たす必要がある(Lipsey et al.、2005)。AIや機械学習の文献から得られた証拠は、 GPTが最初の基準を満たすことを徹底的に示している。つまり、GPTは時間とともに能力を向上 させ、ますます複雑になる一連のタスクやユースケースを完了したり、役立てたりする能力を備 えている(2.1参照)。本論文では、後者の2つの基準を支持する証拠を提示し、GPTが単独で経 済全体に広範な影響を与えることができ、GPTが可能にする補完的なイノベーション(特にソフ トウェアやデジタルツールを介して)が経済活動に広く適用され得ることを発見した。
図3は、LLMの上に構築された補完的なソフトウェアがもたらす潜在的な経済効果を示したも のである。x軸(ある職業に属するタスクの被曝割合)に沿ったある点で、とLl_1D701のy軸 の差(全職業の割合)を取ると、LLM単体による直接的な被曝以上に、ツールやソフトウェア による職業内の総被曝可能性が示されます。GPT-4アノテーションを用いた場合は0.42、人間ア ノテーションを用いた場合は0.32という、全タスクにおけるǖとǗの平均値の差から(図3参照) 、タスク露出に対するGPT搭載ソフトウェアの平均的な影響は、LLM自身による平均露出(人間 アノテーションとGPT-4の両方の平均Ǘに基づいて 0.14 )の倍以上である可能性を示しています 。この結果は、これらのモデルが、すぐにでも、有意義な労働者とタスクに関連することを示 唆する一方で、これらのモデルが生み出すソフトウェアの革新が、より広範な影響をもたらす 可能性があることを示唆している。
技術の普及度を示す要素のひとつに、企業やユーザーによる採用の度合いがある。本稿では 、これらのモデルの採用を系統的に分析することはしないが、LLMの採用と使用がますます広 がっていることを示す初期の定性的証拠がある。LLMの上で比較的簡単なUIを改善することの 威力は、ChatGPTの展開で明らかになりました。基本モデルのバージョンは、以前はAPIで利用 可能でしたが、ChatGPTインターフェースのリリース後に使用率が急増しました。(Chow、2023 ;OpenAI、2022)このリリース後、多くの商業調査が、企業や労働者のLLMの採用が過去数ヶ 月で増加したことを示しています。(Constantz、2023年; ResumeBuilder.com、2023年)
しかし、これらのモデルを広く普及させるためには、既存のボトルネックを特定する必要が あります。モデルの有用性を決定する重要な要因は、人間のモデルに対する信頼度や習慣である 。例えば、法律の専門家であれば、原本を確認したり、独自の調査をしたりすることなく、モ デルの出力を信頼できるかどうかが、モデルの有用性を左右する。LLMの上に構築されたツー ルの採用には、技術のコストや柔軟性、労働者や企業の好み、インセンティブも重要な役割を 果たす。このように、LLMに関連する倫理的・安全的リスク(偏見、事実の捏造、ズレなど)
38
に対する進展によって、採用が促進される可能性がある OpenAI (2023a). さらに、LLMの採用は、データの利用可能性、規制の質、イノベーション文化、権力と利益
の分配といった要因によって、異なる経済セクター間で異なるだろう。したがって、労働者や 企業による大規模な言語モデルの採用や利用を包括的に理解するには、これらの複雑な要素を より深く掘り下げる必要があります。
1つの可能性は、大半のタスクにおいて、品質向上よりも時間短縮とシームレスな適用がよ り重要視されることです。もうひとつは、最初は増強に焦点が当てられ、その後自動化が進む というものです(Huang and Rust, 2018)。完全自動化の前に、まず仕事が不安定になる(作家 がフリーランサーになる)オーグメンテーションの段階が訪れるというのも、一つの形かもし れません。
39
6.2 米国の公共政策への示唆
LLMを含む自動化技術の導入は、以前から経済格差の拡大や労働の混乱と関連しており、下流 に悪影響を及ぼす可能性がある(Acemoglu and Restrepo, 2022a; Acemoglu, 2002; Moll et al,2021; Klinova and Korinek, 2021; Weidinger et al., 2021, 2022)米国における労働者の暴露を調査した我々 の結果は、LLMとそれが生み出す補完技術がもたらす潜在的な経済混乱に対する社会と政策の 準備の必要性を強調しています。LLMがますます普及する経済への移行をスムーズにするため の具体的な政策処方を提言することは本稿の範囲外であるが、(Autor et al., 2022b)などの先行 研究では、教育、労働者訓練、セーフティネット制度の改革などに関連する米国政策の重要な 方向性がいくつか明示されている。
6.3 限界と今後の課題
本研究には、さらなる調査を必要とするいくつかの限界がある。特に、産業組織、技術インフ ラ、規制の枠組み、言語の多様性、文化的背景などの要因により、生成モデルの採用と影響が 異なる可能性がある他の国に対して、本研究の結果を一般化することは困難であると考えられる 。私たちは、研究の範囲を拡大し、私たちの方法を共有することで、この制限を解決し、他の 研究者がそれを基に研究を進めることを望んでいます。
1つは、さまざまな部門や職種におけるGPTの採用パターンを探るものであり、もう1つは、 曝露スコアの範囲を超えた労働者の活動に関連する最新モデルの実際の能力と限界を精査する ものです。例えば、GPT-4でマルチモーダル機能が最近進歩したのにもかかわらず、GPT- exposureの直接評価におけるǼ評価では、視覚機能を考慮しませんでした。(OpenAI, 2023b) 今 後の研究では、このような能力の進歩がもたらす影響について検討する必要があります。特に 、複雑で、オープンエンドで、ドメインに特化したタスクにおいて、理論的な性能と実用的な 性能の間に不一致がある可能性があることを認めるものである。
7 結論
結論として、本研究は、LLM、特にGPTが米国経済の様々な職業や産業に与える潜在的な影響 について考察したものである。LLMの能力とそれが仕事に及ぼす潜在的な影響を理解するため の新しい評価基準を適用することで、ほとんどの職業がGPTにある程度さらされ、一般的に高 賃金の職業は、より多くのタスクに高いエクスポージャーを示すことが観察された。我々の分 析によると、現在のモデルの能力とGPTを搭載した予想されるソフトウェアの両方を考慮した 場合、約19%の職業が少なくとも50%のタスクがGPTにさらされていることがわかりました。
本研究の目的は、GPTの汎用的な可能性と、米国の労働者に対するその可能な意味を明らか にすることである。これまでの文献では、GPT が今日まで目覚ましい進歩を遂げてきたことが
40
示されている(2.1 参照)。また、ソフトウェアやデジタルツールを中心としたGPTによるさら なる進化が、さまざまな経済活動に大きな影響を与えるという仮説も確認された。しかし、 GPTが人間の労働をより効率的にする技術的能力は明らかであるように見えるが、社会、経済、 規制、その他の要因が実際の労働生産性の結果に影響を与える可能性があることを認識するこ とが重要である。GPTの進化に伴い、GPTが経済に与える影響は持続的かつ増大する可能性が高 く、政策立案者はその軌道を予測し規制する上で課題を抱えている。
GPTの進歩は、人間の労働力を補強したり代替したりする可能性、仕事の質への影響、不平 等への影響、能力開発など、より広範な意味を持つため、さらなる研究が必要である。GPTの 能力と潜在的な影響について理解することで
41
GPTが労働力に与える影響について、政策立案者や利害関係者は、AIの複雑な状況や仕事の未 来を形成する役割をナビゲートするために、より多くの情報に基づいた意思決定を行うことが できます。
7.1 GPTの結論(GPT-4’sバージョン)
GPT(Generative Pre-trained Transformer)は、技術的な成長をもたらす大きな変革をもたらし、タ スクに浸透し、職業に大きな影響を与える。本研究では、特に米国の労働市場において、タス クのGPT露出度を測定する画期的なルーブリックを提示し、GPTの潜在的な軌跡を探ります。
7.2 GPTの結論(著者加筆版)
GPT(ジェネレイティブ・プリ・トレーニング・トランスフォーマー)は、技術的な成長、タス クの浸透、プロフェッショナルなマネジメントを実現し、深い変革をもたらす。可能な軌跡を把 握する?先駆的な分類法を生み出し、政策立案者を集め、今日の過去を一般化する。
謝辞
Muhammad Ahmed Saeed、Bongane Zitha、Merve Özen Şenen、J.J.、Peter Hoescheleなど、タスク露 出のアノテーションに協力してくれたアノテーターグループに感謝する。また、Lauryn Fuld、 Ashley Glat、Michael Lampe、Julia Susserの優れた研究支援に感謝する。Miles Brundage氏には、 本論文について重要なフィードバックをいただいた。
Todor MarkovとVik Goelには、GPT-4に対して我々の分類法を実行するためのインフラストラ クチャをセットアップしてもらったことに感謝する。Lama Ahmad, Donald Bakong, Seth Benzell,
Erik Brynjolfsson, Parfait Eloundou-Enyegue, Carl Frey, Sarah Giroux, Gillian Hadfield, Johannes Heidecke, Alan Hickey, Eric Horvitz, Shengli Hu, Ashyana Kachra,Christina Kim, Katya Klinova, Daniel Kokotajlo, Gretchen Krueger, Michael Lampe, Aalok Mehta, Larissa Schiavo, Daniel Selsam, Sarah Shoker,
Prasanna Tambe, Jeff Wuにはプロジェクトの各段階でフィードバックや編集をしていただきまし た。
LLMアシストステートメント GPT-4とChatGPTは、このプロジェクトにおけるライティング、コーディング、フォーマットの支
援に使用されました。
A タクソノミー
42
A.1 露出度
# E Exposure Rubric 最も強力なOpenAIの大規模言語モデル(LLM)を考えてみましょう。このモデルは、テキ
スト入力とテキスト出力があり、入力の文脈を2000語で捉えることができると定式化できる多 くのタスクをこなすことができます。また、このモデルは、入力に含まれない限り、最新の事 実(1年未満のもの)を引き出すことができません。
あなたは、与えられたタスクを完了するために、自分の役割について平均的なレベルの専門
知識を持つ労働者であると仮定します。あなたは、LLMと、タスクで言及されているその他の
既存のソフトウェアやコンピュータハードウェアのツールにアクセスすることができます。ま
た、ノートパソコンからアクセスできる一般的な技術ツール(マイク、スピーカーなど)にも
アクセスできます。その他の物理的なツールや材料へのアクセスはできません。 以下のルーブリックに従って、与えられたタスクにラベルを付けてください。
43
同等の品質とは、人間が自力で完成させたのか、LLMの支援を受けて完成させたのか、レ ビューする人が見分けがつかないということです。
タスクにかかる時間をどのように判断したらよいかわからない場合は、説明されているツー
ルがタスクに関連するサブタスクの大部分を露出しているかどうかを検討してください。
## E1 – 直接露出 ChatGPTやOpenAIプレイグラウンドのようなインターフェースを通じてLLMに直接アクセス
するだけで、同等の品質でタスクを完了するのにかかる時間を半分以上短縮できる場合、タス クE1のラベルを付けます。削減できるタスクが含まれます。- 複雑な指示に従ったテキストやコ ードの記述と変換、 ・仕様に従った既存のテキストやコードへの編集の提供、 ・手作業で行っ ていたタスクの実行を助けるコードの記述、 ・言語間のテキストの翻訳、 ・中程度の長さの文 書の要約。
– 文書に対するフィードバックの提供、 – 文書に関する質問への回答、 – 文書に関してユーザー が尋ねたいであろう質問の作成、 – 面接や評価のための質問の作成、 – 情報への反論や交渉に関 わるものを含む電子メールの作成と回答(ただし、交渉が書面でのやり取りである場合のみ)、 – 書面データの記録の維持、 – 一般的な知識に基づくトレーニング教材の作成、 – あらゆる書面
または音声媒体による情報の通知。
## E2 – LLMを搭載したアプリケーションによる曝露 LLMを利用するだけでは、タスクを完了するのにかかる時間を少なくとも半分に減らすこと
ができない場合、タスクE2にラベルを付けますが、LLMの上に開発できる追加のソフトウェア が、タスクを完了するのにかかる時間を半分に減らすことは容易に想像がつきます。このソフ トウェアには、以下のような機能が含まれる可能性があります。- 2000語以上の文書を要約し、 その文書に関する質問に答える – インターネットから最新の事実を取得し、その事実をLLMの機 能と組み合わせて使用する。
– 組織の既存の知識、データ、文書などを検索し、情報を取得する、 ・高度に専門的な領域の 知識を取得する、 ・データや文書によるインプットを受けて推奨する、 ・文書情報を分析して 意思決定に役立てる、 ・高度な専門知識に基づいてトレーニング資料を作成する、 ・問題に対
する助言を提供する、 ・複雑なデータベースを維持する、など。
## E3 – 画像処理能力を考慮した露光。 LLMと、LLMを動力源とするシステム(上記E2のもの)と同様に、画像の閲覧、キャプショ
ン、作成ができるシステムの両方を利用できるとする。このシステムは、ビデオを入力とする ことはできず、ビデオを出力とすることもできない。このシステムは、画像入力から非常に詳 細な情報(画像内の寸法の測定など)を正確に取得することができない。LLMとこれらの画像 機能を利用することで、タスクを完了するのにかかる時間が大幅に短縮される場合、タスクを
E3としてラベル付けします。- PDFからテキストを読み取る、 – 画像をスキャンする、 – 指示に したがってデジタル画像を作成または編集する。
44
画像は現実的であってもよいが、詳細であってはならない。モデルは画像内のオブジェクト
を識別できるが、それらのオプション間の関係は識別できない。
## E0 – 露出なし 上記のいずれにも該当しない場合、経験豊富な作業者がその作業を高品質で完了するのに要
する時間が少なくとも半分に減少することが明らかであれば、タスクE0と表示する。いくつか例 を挙げます。- あるタスクが高度な人間関係を必要とする場合(例えば、対面でのデモンストレ ーション)、E0に分類されるべきである。- 正確な測定が必要なタスクは、E0に分類されるべ きである。- ビジュアルを詳細に確認する必要があるタスクは、E0に分類されるべきです。- 手 を使ったり、歩いたりするタスクは、E0に分類されるべきです。- LLMの上に構築されたツー ルは、人間の生活に影響を与える可能性のある決定(例:雇用、採点など)を行うことはでき ません。タスクの一部に、最終的な決定を下すためのインプットの収集が含まれる場合(決定 や勧告を行うためのデータ分析とは異なる)、それはE0に分類されるべきです。LLMは推奨を 行うことができる。- LLMの上に構築されたツールでタスクを実行できたとしても、そのツール を使うことで経験豊富な作業者がそのタスクを完了する時間を大幅に短縮できない場合、それ はE0に分類されるべきである。- LLMとその上に構築されたシステムは、法律上、人間がその タスクを実行する必要があることはできません。- LLMを搭載していない既存の技術で、一般的 に使用され、タスクを完了できるものがある場合、LLMまたはLLMを搭載したツールを使用し ても、タスクを完了するまでの時間がさらに短縮されない場合は、タスクをE0とする必要があ ります。
45
を完成させる。 迷ったときは、E0をデフォルトにす
るとよいでしょう。## アノテーショ
ンの例
職種のこと検査員、試験員、仕分け人、サンプラー、秤量人 仕事内容検査で見つかった欠
陥を修正するために、製品や加工装置を調整、清掃、修理する。ラベル(E0/E1/E2/E3)。E0 説 明このモデルは、あらゆる身体性を利用することができず、記述されているタスク(機器の調整 、清掃、修理)の半分以上は手などの身体性を必要とします。
職業は?コンピュータと情報の研究者 課題コンピュータを新しい用途に適用するための原理 を適応させるなど、理論的な専門知識とイノベーションを応用して新しい技術を創造または適用 する。ラベル(E0/E1/E2/E3)。E1 説明モデルは一般的な知識ベースの一部としてトレーニング 中に理論的な専門知識を学ぶことができ、適応するための原則はモデルへの入力テキストに取 り込むことができる。
活動する。食事の予約をする。ラベル(E0/E1/E2/E3)。E2説明。このための自動化技術は
すでに存在し(例:Resy)、LLMがその技術を使った上で何を提供するかは不明である(no-diff
)。とはいえ、LLMに頼んでResyで予約してもらうようなものを作ることはできるだろう。 –
ONET Basic Skillsの定義 ベーシックスキル
学習やより迅速な知識の習得を促進する能力を開発した。
コンテンツ
様々な異なる領域で活躍し、より具体的なスキルを身につけるために必要な背景構造。
- 読解力 – 仕事で使う文書に書かれている文章や段落を理解する。
- アクティブリスニング – 相手の話に十分な注意を払い、時間をかけてポイントを理解し、 適切な質問をし、不適切なタイミングで話を遮らない。
- ライティング – 聴衆のニーズに合わせて適切な文章で効果的にコミュニケーションをとる。
- 話す – 情報を効果的に伝えるために他者に話すこと。
- 数学 – 数学を使って問題を解決する。
- 科学 – 科学的なルールや方法を用いて、問題を解決する。
B
46
プロセス
様々な領域の知識や技術をより早く習得することに貢献する手順
• クリティカルシンキング – 論理と推論を駆使して、問題に対する代替的な解決策、結論、 アプローチの長所と短所を特定すること。
• アクティブラーニング – 新しい情報が現在および将来の問題解決や意思決定に与える影響 を理解する。
47
• 学習戦略 – 新しいことを学んだり教えたりする際に、状況に応じた適切なトレーニング/指 導方法と手順を選択し、使用すること。
• モニタリング – 自分自身、他の個人、または組織のパフォーマンスを監視/評価し、改善 または是正措置を講じること。
クロスファンクショナル・スキル
注:モデルのコーディング能力について予備知識があったため、クロスファンクショナルスキルの リストからProgrammingのみを選択しました。
• プログラミング – さまざまな目的のためにコンピュータープログラムを作成すること。 C 教育
$31,900 $45,470 $48,315 $40,970 $60,360 $78,375 $79,605 $82,420 36,187 67,033 9,636 2,898 3,537 71,698 3,216 5,290 | 0.05 0.06 0.09 0.13 0.07 0.15 0.23 0.34 0.12 0.14 0.23 0.17 0.26 0.14 0.21 0.13 | 0.10 0.10 0.20 0.25 0.19 0.28 0.39 0.53 0.31 0.36 0.47 0.51 0.46 0.44 0.41 0.43 |
正式な教育資格はない 高校卒業資格または同等の資格 ポストセカンダリーノンディグ リーアワード ある程度の大学、学位なし 準学士号
学士号(Bachelor’s degree 修士号 博士号または専門職学位
中央値収入 Emp(000s)で H M H M す。
H M
0.15 0.15 0.31 0.37 0.31 0.41
0.55 0.72 0.49 0.59 0.70 0.84 0.66 0.74 0.60 0.74
表10:職業別の平均暴露スコア(職業に就くために必要な典型的な学歴でグループ分けしたも の)。露出度スコアと並行して、各職業の年収の中央値、および各グループの労働者の総数( 単位:千人)も表示している。
D 産業と生産性の露出
自動化・増強に最もさらされる(地図)のはどの地域か 図6と図7は、それぞれ人間の評価者と我々のアルゴリズムによるエクスポージャーの基準に
従って、3桁のNAICS産業の全体的な雇用加重相対エクスポージャーを示しています。ほぼ全産 業に影響ポテンシャルが存在し、不均質性が大きいことがわかります。データ処理、情報処理 、病院はいずれも高いエクスポージャーを有していることから、両手法とも相対的なエクスポ ージャーについては概ね一致している。
48
49
図6
50
図7 51
最近の生産性の伸び(全要素と労働の両方)は、同様にエクスポージャーと相関がないように見 える。図DとDは、2012年以降の生産性の伸びと、モデルによって評価された現在のLLMへのエ クスポージャーとの間にほとんど関係がないことを示している。すでに急成長している生産性産 業とエクスポージャーの相関が高いということは、Baumolのコスト病の増悪を意味するのかも しれない。つまり、LLMが産業ごとに異なる生産性の向上をもたらすとすれば、最も生産性の 高い産業がさらに生産性を高めてしまうことが懸念される。そのような産業の生産に対する需要 が非弾力的であれば、最も生産性の高い部門は、経済における投入量の割合として縮小するこ とになる。これが事実であることを示唆するものはほとんどない。2012年以降の生産性向上と LLM技術の導入は無関係と思われる。
52
E 露出のない仕事をする職業 ラベルを貼った露出作業がない職業
農業機械オペレーター アスリートと
スポーツ競技者 自動車用ガラス取り
付け・修理業者 バス・トラック整備士、ディーゼルエンジンスペシャリ
スト セメントメイソン、コンクリートフィニッシャー 調理師、ショートオーダー カッター、トリマー、ハン
ドデリックオペレーター、
オイル&ガス
食堂・カフェテリア アテンダント・バーテンダー ヘル
パー 食器洗い機
ドレッジオペレーター 電力線設置者・修理者
掘削・積込み機械およびドラッグラインオペレーター、地表採掘 床敷
き(カーペット、木材、硬質タイルを除く)。
鋳造用金型・中子メーカー ヘルパー-レンガ職人、ブロック職人、石工、タイル・大理石職人 ヘルパー-大工職人
ヘルパー-塗装工、紙管工、左官工、漆喰工 ヘルパー-配 管工、配管工、蒸気工 ヘルパー-屋根職人 肉・鶏・魚のカット・トリマー モーターサイ クルメカニック 舗装・整地・タンピング装置オペレーター パイル
ドライバーオペレーター パウラー、キャスター、金属 鉄道軌道敷設・保守機器オペレーター 耐火物修理
業者(レンガ職人を除く) ルーフボルタ(鉱業) 職人
屠殺人・食肉加工人 石工人 テーパー タイヤ修理・交換業者 井戸
端ポンプ業者
表11:どの測定法でも露出と判定されなかった全34職種。 53
参考文献
Abid, A., Farooqi, M., and Zou, J. (2021).大規模言語モデルにおける持続的な反イスラムのバイア ス。Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society, AIES ’21, page 298-
306, New York, NY, USA.Association for Computing Machinery.
54
Acemoglu, D. (2002).技術革新、不平等、労働市場。Journal of Economic Literature, 40.
Acemoglu, D. and Autor, D. (2011a).スキル、タスク、テクノロジー。スキル、タスク、テクノロ
ジー:雇用と収益への影響。労働経済学ハンドブック、第4巻、1043-1171ページにて。 Elsevier.
Acemoglu, D. and Autor, D. (2011b).スキル、タスク、テクノロジー。Implications for Employment and Earnings.Ashenfelter, O. and Card, D., editors, Handbook of Labor Economics, volume 4 of
Handbook of Labor Economics, chapter 12, pages 1043-1171.Elsevier.
Acemoglu, D., Autor, D., Hazell, J., and Restrepo, P. (2020).Ai と仕事。オンライン空室からのエビデン ス。
テクニカルレポート、National Bureau of Economic Research. アセモグル,D.とレストレポ,P.(2018).人間と機械の間の競争。成長、要素シェア、雇用
に対する技術の意味合い。American economic review, 108(6):1488-1542.
Acemoglu, D. and Restrepo, P. (2019).オートメーションと新しいタスク。テクノロジーはどのよ
うに労働を置き換え、復権させるか。Journal of Economic Perspectives, 33(2):3-30.
Acemoglu, D. and Restrepo, P. (2022a).人口動態と自動化。経済学評論』89(1):1-44.
Acemoglu, D. and Restrepo, P. (2022b).タスク、自動化、そして私たちの賃金不平等の上昇。 Econometrica, 90(5):1973-2016.
Agrawal, A. K., Gans, J. S., and Goldfarb, A. (2021).Ai の採用とシステム全体の変化。Technical report, National Bureau of Economic Research.
Arntz, M., Gregory, T., and Zierahn, U. (2017).自動化のリスクを再考する。エコノミクス・レター ズ』159:157-160.
オーサー、D.、チン、C.、サロモンズ、A.M.、ゼーグミラー、B.(2022a).ニューフロンティ ア。新しい仕事の起源と内容、1940-2018年。Technical report, National Bureau of Economic
Research.
オーサー,D.,ミンデル,D.A.,レイノルズ,E.B.(2022b).The Work of the Future:インテリ
ジェント・マシンの時代におけるより良い仕事の構築.The MIT Press.
Autor, D. H., Katz, L. F., and Kearney, M. S. (2006).米国労働市場の二極化.American economic
review, 96(2):189-194.
Autor, D. H., Levy, F., and Murnane, R. J. (2003).最近の技術革新のスキル内容。An empirical exploration.The Quarterly journal of economics, 118(4):1279-1333.
バビナ,T.,フェディック,A.,ヘ,A.,ホドソン,J.(2021).人工知能、企業の成長、製品 55
イノベーション。Firm Growth, and Product Innovation (2021年11月9日).
Bai, Y., Jones, A., Ndousse, K., Askell, A., Chen, A., DasSarma, N., Drain, D., Fort, S., Ganguli, D., Henighan, T., Joseph, N., Kadavath, S., Kernion, J., Conerly, T., El-Showk, S., Elhage, N,Hatfield-Dodds, Z., Hernandez, D., Hume, T., Johnston, S., Kravec, S., Lovitt, L., Nanda, N., Olsson, C., Amodei, D.,
Brown, T., Clark, J., McCandlish, S., Olah, C., Mann, B. and Kaplan, J. (2022).人間のフィードバッ クからの強化学習で、親切で無害なアシスタントを訓練する。 arXiv:2204.05862 [cs].
Baumol, W. J. (2012).コスト病。なぜコンピュータは安くなるのに、医療は安くならないのか。 Yale university press.
56
Benzell, S. G., Kotlikoff, L. J., LaGarda, G., and Ye, V. Y. (2021).内生的な世界の自動化をシミュレーショ ンする。
Working Paper 29220, National Bureau of Economic Research.
ベッセン、J. (2018).人工知能と雇用。需要の役割。The economics of artificial intelligence: an agenda,
pages 291-307.シカゴ大学出版局。 BLS(2022年)。詳細職業別雇用者数。BLS
(2023a).人口統計学的特性(cps)。
BLS (2023b).Occupational outlook handbook a-z index.
Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., et al. (2021).基礎モデルの機会とリスクについて。 arXiv preprint arXiv:2108.07258.
ブレスナハン,T. (2019).人工知能技術と集約的な成長見通し。 ブレスナハン、T.、グリーンスタイン、S.、ブラウンストーン、D.、フラム、K.(1996)。コン
ピューティングとコンピュータの使用における技術進歩と共同発明。Brookings Papers on Economic Activity.Microeconomics, 1996:1-83.
ブレスナハン,T. F. (1999).コンピュータ化と賃金の分散:分析的な再解釈。The economic journal, 109(456):390-415.
Bresnahan, T. F., Brynjolfsson, E., and Hitt, L. M. (2002).情報技術、職場組織、および熟練労働者の需要 。企業レベルの証拠。The quarterly journal of economics, 117(1):339-376.
ブレスナハン,T.F.,トラジテンベルグ,M.(1995).汎用技術「成長のエンジン」?Journal of econometrics, 65(1):83-108.
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020).言語モデルは少数精鋭の学習者である。神経情報処理システ
ムの進歩, 33:1877-1901.
Brynjolfsson, E., Frank, M. R., Mitchell, T., Rahwan, I., and Rock, D. (2023).機械学習が仕事に与える影
響の分布を定量化する。Forthcoming.
Brynjolfsson, E. and Mitchell, T. (2017).機械学習は何ができるのか? ワークフォースの意味合い。
Science, 358(6370):1530-1534. ブリンヨルフソン、E.、ミッチェル、T.、ロック、D.(2018).機械は何を学ぶことができるの
か、そしてそれは職業と経済にとって何を意味するのか?AEA Papers and Proceedings, 108:43- 47.
57
ブリンジョルフソン,E.,ロック,D.,シバーソン,C.(2021).生産性のJカーブ。無形資産 が汎用技術を補完する方法。アメリカン・エコノミック・ジャーナルマクロ経済学,
13(1):333-72.
チェイス、H.LangChain(ラングチェーン)。
Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, H. P. d. O., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021).コードで学習した大規模言語モデルの評価 arXiv preprint arXiv:2107.03374.
Cheng, Z., Lee, D., and Tambe, P. (2022).Innovae: 特許とイノベーションを理解するための生成ai. SSRNで入手可能です。
58
チャウ、A. R. (2023).ChatGPTが史上最も急成長したウェブプラットフォームである理由|Time.
コックバーン,I.M.,ヘンダーソン,R.,スターン,S.(2018).人工知能がイノベーションに 与える影響。探索的分析(An exploratory analysis).In The economics of artificial intelligence:An agenda, pages 115-146.シカゴ大学出版局。
コンスタンス、J. (2023).ホワイトカラー労働者の約3分の1が、チャットグットなどのaiプログラ ムを試したことがあるという。
デイビッド,P. A. (1990).ダイナモとコンピュータ:現代の生産性パラドックスに対する歴史的 視点。アメリカン・エコノミック・レビュー』80(2):355-361.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019).Bert: Pre-training of deep bidirectional transformers for language understanding.ArXiv, abs/1810.04805.
ディクソン,J.,ホン,B.,ウー,L.(2021).ロボット革命。企業に対する経営上および雇用 上の影響。マネジメント・サイエンス, 67(9):5586-5605.
Feigenbaum, J. J. and Gross, D. P. (2021).組織的摩擦と自動化への増加する利益。20世紀のat&tか らの教訓。Technical report, National Bureau of Economic Research.
Felten, E., Raj, M., and Seamans, R. (2023).chatgptのような言語モデラーは職業や産業にどのような 影響を与えるのか? arXiv preprint arXiv:2303.01157.
Felten, E. W., Raj, M., and Seamans, R. (2018).人工知能の進歩を職業能力に結びつける方法。AEA Papers and Proceedings, 108:54-57.
フレイ,C. B. (2019).テクノロジーの罠』(The Technology Trap.ザ・テクノロジーの罠』(原題
:The Technology Trap.Princeton University Press.フレイ,C. B. とオズボーン,M. A. (2017).雇用の
未来。仕事はコンピュータ化に対してどの程度影響を受けやすいか? 技術予測と社会変化, 114(C):254-280.
Goldfarb, A., Taska, B., and Teodoridis, F. (2023).機械学習は汎用技術になり得るか?オンライン求人広告 のデータを用いた新興技術の比較。研究政策, 52(1):104653.
Goldstein, J. A., Sastry, G., Musser, M., DiResta, R., Gentzel, M., and Sedova, K. (2023).生成言語モデルと自動 化された影響力操作。Emerging threats and potential mitigations.
Grace, K., Salvatier, J., Dafoe, A., Zhang, B., and Evans, O. (2018).aiはいつ人間のパフォーマンスを超える のか? aiの専門家からのエビデンス。人工知能研究誌、62:729-754.
Hernandez, D., Kaplan, J., Henighan, T., and McCandlish, S. (2021).転移のスケーリング則 arXiv preprint arXiv:2102.01293.
59
ホートン,J.模擬経済エージェントとしての大規模言語モデル。arXiv preprint arXiv:2301.07543. Huang, M.-H. and Rust, R. T. (2018).サービスにおける人工知能。ジャーナル・オブ・サービス・リサ
ーチ, 21(2):155-172.
Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J.,
and Amodei, D. (2020).ニューラル言語モデルのスケーリング則.arXiv preprint arXiv:2001.08361. Katz, L. F. and Murphy, K. M. (1992).相対賃金の変化、1963-1987年:需給要因。
The quarterly journal of economics, 107(1):35-78.
60
Khlaaf, H., Mishkin, P., Achiam, J., Krueger, G., and Brundage, M. (2022).コード合成大規模言語モデ ルのためのハザード分析フレームワーク。
クリノバ,K.とコリネク,A.(2021).Aiと繁
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. (2022).人間のフィードバックで指示に従う言語モデルのトレーニング arXiv preprint arXiv:2203.02155.
Peng, S., Kalliamvakou, E., Cihon, P., and Demirer, M. (2023).開発者の生産性に対するaiの影響。github copilotからのエビデンス. arXiv preprint arXiv:2302.06590.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I., et al. (2019).言語モデルは教師なしマ ルチタスク学習者である。OpenAI blog, 1(8):9.