要旨: 経済学では、分類アルゴリズムを用いて二値変数(またはラベル)を生成するために、AI/ML手法がますます用いられている。生成されたこれらの変数を回帰における共変量として含めると、わずかな誤分類エラーであっても、OLS推定量に大きなバイアスをもたらし、標準的な推論を無効化しうる。本研究では、ブートストラップがこのバイアスを補正し、妥当な推論を提供できるかを検討する。まず、推定されたラベルを用いてデータを生成する、見かけ上自然な固定ラベルのブートストラップは、推定においては破損した(誤った)版に依存しているため、潜在する真のラベルと他の共変量の間に強い独立性条件が成り立つ場合を除いて、一般に不正当であることを示す。次に、真のラベルと補完(imputed)されたラベルを同時に再標本化する結合ラベルのブートストラップを提案し、この条件なしで妥当であることを示す。さらに、カバー率を改善するための有限標本調整を2つ行う。すなわち、推定された誤分類率における不確実性のための分散補正、および、ほぼ特異な設計に対するヘッセ行列の回転(Hessian rotation)である。これらの手法をシミュレーションで示し、さらに賃金とリモート勤務の状況との関係を調べるために適用する。
AI/ML生成ラベルによるブートストラップ
arXiv stat.ML / 2026/4/28
💬 オピニオンModels & Research
要点
- 経済分野で分類アルゴリズムにより生成された二値ラベル(共変量)を回帰に投入すると、ラベルの誤分類があるだけでOLS推定量に大きなバイアスが生じ、通常の推論が無効化されうる点を本論文は検討している。
- 推定ラベルを使ってデータを生成する「固定ラベル」ブートストラップは、一見自然に見えても、潜在する真のラベルと他の共変量の間に強い独立性が成り立つ場合を除き、一般に有効でないことを示している。
- 真のラベルと補完(imputed)ラベルを同時にリサンプルする「結合ラベル」ブートストラップを提案し、その方式ならその強い独立性条件なしに妥当な推論が得られることを示している。
- 有限標本でのカバレッジ改善として、誤分類率の推定に伴う不確実性に対する分散補正と、ほぼ特異な設計に対するヘッシアン回転という2つの調整を追加している。
- シミュレーションで有効性を検証し、さらに賃金とリモートワークの関係を調べる経済学的な適用例でも手法を示している。


