要旨: 多くの現代的なアプリケーションでは、注意深く設計された主要研究が解釈可能なモデリングのための個票レベルのデータを提供する一方、要約レベルの外部情報はブラックボックスで効率的かつ非パラメトリックな機械学習予測を通じて利用可能である。要約レベルの外部情報はデータ統合の文献で研究されているものの、主要研究における統計的推論を改善するために外部の非パラメトリック機械学習予測を活用する方法論は限られている。そこで我々は、モーメント制約を通じて外部予測を組み込む一般的な経験尤度(エンピリカル・リケリティ)枠組みを提案する。非パラメトリック機械学習予測の利点は、明示的な密度比推定を必要とせず、穏やかな重なり(オーバーラップ)の条件の下で共変量シフトに対して頑健な、妥当なモーメント制約の豊かなクラスを導出する点にある。我々は主要モデルとして多項ロジスティック回帰に焦点を当て、外部ソースにおける共通のデータ品質の問題、すなわち、区分化された(coarsened)アウトカム、部分的に観測された共変量、共変量シフト、そして生成メカニズムの異質性として知られるコンセプトシフトを扱う。得られた融合推定量(fused estimator)について、大標本の性質を確立し、整則条件の下での一致性および漸近正規性を示す。さらに、外部予測を組み込むことで、主要研究のみの推定量に比べて厳密な効率向上(strict efficiency gain)が得られることを保証する、穏やかな十分条件も提示する。シミュレーション実験および、多クラスの血圧分類に関する全米健康栄養調査(National Health and Nutrition Examination Survey)への適用も行う。
要約レベルの外部機械学習情報を用いた融合型多項ロジスティック回帰
arXiv stat.ML / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多項ロジスティック回帰における主要研究(primary study)の推論へ、要約レベルの外部機械学習予測を「融合」するための、経験尤度(empirical-likelihood)フレームワークを提案する。
- 非パラメトリックなML予測を活用して、重なり(overlap)条件の下で、共変量シフトに対して頑健であり得る(さらに密度比モデリングを要しない)豊富なモーメント制約の集合を導出する。
- 本手法は、結果の粗視化(coarsened outcomes)、部分的に観測された共変量、共変量シフト、ならびに概念シフト(データ生成メカニズムの異質性)といった外部データの品質問題を明示的に扱う。
- 著者らは、融合推定量に関して大標本の理論結果(整合性および漸近正規性)を証明し、外部予測の利用が主要研究のみの解析に比べて厳密な効率改善をもたらすための条件を提示する。
- シミュレーションによって提案手法を検証し、NHANESデータを用いた多クラスの血圧分類への適用例を示す。



