MEC:半教師あり平均推定のための機械学習支援による一般化エントロピー・キャリブレーション

arXiv stat.ML / 2026/4/8

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、少量のラベルと大量の未ラベル共変量を前提に、予測器を用いたPrediction-powered inference(PPI)の効率低下やカバレッジ歪みの課題に対処する手法としてMEC(Machine-Learning-Assisted Generalized Entropy Calibration)を提案しています。
  • MECはクロスフィット+キャリブレーション重み付けにより、ラベル付きサンプルを目標母集団に合わせて再重み付けし、Bregman射影に基づく原理的なキャリブレーション枠組みを採用します。
  • 予測器に対するアフィン変換への頑健性を高め、妥当性条件を「生の予測誤差」ではなく「射影誤差」へ置き換えることで、従来より弱い仮定下での理論保証を実現します。
  • その結果、MECは既存のPPI系より弱い仮定で半パラメトリック効率境界に到達し、シミュレーションと実データ適用でほぼ公称のカバレッジとより狭い信頼区間を示しています。

Abstract

高品質なラベルを得ることはコストがかかる一方で、ラベルなしの共変量はしばしば豊富であるため、信頼できる不確実性の定量化を伴う半教師あり推論法が動機づけられる。予測に基づく推論(Prediction-powered inference; PPI)は、小さなラベル付きサンプルで訓練された機械学習予測器を活用して効率を高めるが、モデルのミススペシフィケーションのもとでは効率を失い得る。また、ラベル再利用により、カバレッジの歪みが生じることがある。我々は、PPIのクロスフィット(cross-fitted)版であり、キャリブレーションに重み付けした変種である機械学習支援型一般化エントロピー・キャリブレーション(Machine-Learning-Assisted Generalized Entropy Calibration; MEC)を導入する。MECは、Bregman射影に基づく原理的なキャリブレーション枠組みを用いて、ラベル付きサンプルを再重み付けすることで、目標母集団との整合をより良くし、効率を改善する。これにより、予測器のアフィン変換(affine transformations)に対する頑健性が得られ、また、原予測誤差に関する条件を、より弱い射影誤差に関する条件に置き換えることで、有効性(validity)に対する要求を緩和する。その結果、MECは、既存のPPI変種よりも弱い仮定のもとで、半パラメトリック効率の上限(semiparametric efficiency bound)を達成する。シミュレーションおよび実データへの適用の双方において、MECはCF-PPIおよびバニラPPIよりも、名目上に近いカバレッジを実現し、信頼区間もより狭くなる。