TL;DR: 私たちは、エージェント的AI(単一タスクだけでなく、ワークフロー全体をエンドツーエンドで完了するようなシステム)を扱えるように、Acemoglu-Restrepo のタスク代替フレームワークを拡張しました。そして、それを米国の5つの主要技術都市圏(SFベイ、シアトル、オースティン、ボストン、NYC)にまたがる236の職業に適用しました。
論文: https://arxiv.org/abs/2604.00186
動機: 既存のAI曝露(ばくろ)指標(Frey-Osborne、FeltenらのAIOE、EloundouらのGPT曝露)は暗黙に、タスクが独立しており、構成要素が1つずつ自動化された後も、その職業は調整のための「殻(コーディネーション・シェル)」として生き残ると仮定しています。これは狭い範囲のAIには当てはまります。しかし、ツール呼び出しを連鎖させ、ステップ間で状態を保持し、自己修正するようなエージェント的システムでは破綻します。そこで私たちは、標準的なタスク代替フレームワークに「ワークフロー網羅(workflow-coverage)項」を追加し、エージェント的AIの現在の運用範囲を超えて、人間による調整、規制上の説明責任、例外処理を必要とするタスクをペナルティするようにしました。
主な発見:
- ソフトウェアエンジニアは、クレジットアナリスト、判事、規制・コンプライアンス担当者よりも「低く」順位付けられます。これまで自動化耐性があると見なされてきた、認知的で高い資格(高クレデンシャル)を要する役割ほど、エンドツーエンドのワークフロー網羅を考慮すると、最も曝露されています。
- 都市圏間には、採用の間に測定可能な2〜3年の遅れがあります。同じ職業、同じ曝露プロファイル、異なる時系列。シアトルは2027年にNYCが2029年に見えるような状態です。
- 現実の採用の勢いがある(Indeedで約1,500件の「AI Reviewer」掲載)17の新しい職種カテゴリを特定しました。これらはコーディングを必要としません。
- SFベイエリアでは、情報関連の職業の93%が2030年までに私たちの「中程度の代替(moderate-displacement)」閾値を超えますが、2030年になっても「高リスク(high-risk)」閾値に達する職業はありません。このフレームワークは、広範な中程度の曝露を予測しますが、いかなる個別の役割に対しても壊滅的な代替は起きないとしています。
検証:
- このフレームワークは、193の対応する職業において Spearman のρ=0.84でAIOE指数と相関し、またρ=0.72でEloundouらのGPT曝露とも相関します。したがって、そのシグナルは単なるキャリブレーション上のアーティファクトではありません。
- S字カーブの採用パラメータにおける6倍の幅(k = 0.40〜k = 1.20)でストレステストを行いました。質的な地域順序は、9つのシナリオ年の組み合わせすべてで維持されます。
- 2023-24のOEWS検証ではヌル結果(ρ = -0.04)を得ました。私たちはこれを透明性をもって報告します。反証可能な予測(5月2025年のOEWSリリース時にρ < -0.15)を行い、方向性にかかわらずその結果を報告することを約束します。
制約:
- キーワードベースのCOV(workflow-coverage)ルーブリックが、このフレームワークのうち私が最も自信がない部分です。セマンティック拡張のパイロットでは、私たちのスコアは上限であり、人との相互作用における負荷(インターパーソナルなオーバーヘッド)が大きい職業では、代替リスクを15〜25%過小評価していることを示唆しています。
- S字カーブ成長パラメータのキャリブレーションは、キャリブレーションした値と、Indeedの求人掲載データを当てはめて得られる値との間に6倍の不一致があります。これに対して、論文の表にある3つのシナリオによる感度分析で対応します。
- 分析の対象は米国の5つの都市圏に限られています。OECDのPIAACとEurostatのデータを用いた国際的な拡張は開発中です。
方法論、データソース、制約についての質問には喜んでお答えします。反論や異論は歓迎します――特にCOVルーブリックとS字カーブのキャリブレーションの選択について。
[link] [comments]




