概要: 本論文は、大規模言語モデル(LLM)を潜在的な経済変数の測定器として用いるための理論的・実践的基盤を確立する。ここでいう変数とは、既存の調査票では達成できない粒度で、職務タスクの認知的内容を記述する変数である。私は、LLMが生成するスコアが妥当な測定器となるための4つの条件――意味的外生性、構成概念の関連性、単調性、モデル不変性――を形式化する。続いて、この枠組みを、Claude Haiku 4.5 によりスコア付けされた18,796件のO*NETタスク記述文から構築した拡張人的資本指数(AHC_o)に適用し、既存の6つのAI曝露指数に対して検証する。その結果、この指数は強い収束的妥当性を示す(Eloundou GPT-gammaと r = 0.85、Felten AIOEと r = 0.79)ほか、弁別的妥当性も確認される。
主成分分析により、AI関連の職業指標が2つの異なる次元――補完(augmentation)と代替(substitution)――にまたがることが確認される。2つのLLMモデル間での評定者間信頼性(n = 3,666 のペアスコア)では、ピアソンの r = 0.76 および Krippendorff のα = 0.71 が得られた。4つの代替的な枠付け(framing)にわたるプロンプト感度分析では、タスク・レベルの順位が頑健であることが示される。明らかに関連した操作変数(ORIV)の推定は、OLSよりも係数が25%大きくなり、古典的な測定誤差の減衰と整合的である。この方法論は、労働経済学の領域を超えて、意味内容を大規模に定量化する必要があるあらゆる領域に一般化できる。
測定できないものを測る:労働経済学における潜在的認知変数の計測手段としてのLLM
arXiv cs.CL / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMを潜在的な経済変数、特に職務タスクの認知的内容を、従来の調査では得にくい細かな粒度で測定するための「妥当な計測手段(測定インスツルメント)」として用いる枠組みを提案する。
- LLMが生成したスコアがインスツルメントとして機能しうる条件を正当化するために、4つの妥当性条件――意味的な外生性、構成概念への関連性、一調性、モデル不変性――を形式化する。
- 著者らは、この方法を用いて、Claude Haiku 4.5 によりスコア付けされた O*NET の1万8,796件のタスク記述から、Augmented Human Capital Index(AHC_o)を構築し、既存の6つのAI曝露指標に対して強い収束的妥当性を報告する。
- 弁別的妥当性、PCAにより2つのAI関連次元(補完的拡張 vs 代替)を可視化、モデル間の信頼性(ピアソンのrおよびKrippendorffのα)などの統計的検証によって、当該指数の計測品質が支持される。
- さらに本研究では、プロンプトの変化に対して頑健なタスクリランキングが得られることを示し、OLSと比べてORIV推定が計測誤差による減衰を補正することを明らかにする。あわせて、本アプローチは、同様にスケーラブルな意味的量的化を必要とする他領域へ一般化することを意図している。



