Active Statistical Inference

arXiv stat.ML / 4/9/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 論文「Active Statistical Inference」は、アクティブラーニングの発想を統計的推論に取り入れ、ラベル数という予算制約下で機械学習モデルを用いて「追加でラベルすべきデータ点」を選ぶ手法を提案しています。
  • 手法の中心は、モデルが不確実なデータ点は積極的にラベル収集し、確信があるデータ点はモデル予測に任せることで、限られたラベルを効率化することです。
  • アダプティブ(データ収集をモデルの不確実性に応じて変える)により、任意のブラックボックスMLモデルやデータ分布に対して、確率的に妥当な信頼区間・仮説検定を構成できることを示します。
  • 既存の「非アダプティブに収集する」ベースラインより少ないサンプルで同等の精度を達成し、同数の収集サンプルでも信頼区間を狭め、p値をより強く(=検定力向上)できると主張しています。
  • 公的世論調査・国勢調査分析・プロテオミクスといった複数領域のデータセットで評価を行っています。

Abstract

Inspired by the concept of active learning, we propose active inference\unicode{x2013}a methodology for statistical inference with machine-learning-assisted data collection. Assuming a budget on the number of labels that can be collected, the methodology uses a machine learning model to identify which data points would be most beneficial to label, thus effectively utilizing the budget. It operates on a simple yet powerful intuition: prioritize the collection of labels for data points where the model exhibits uncertainty, and rely on the model's predictions where it is confident. Active inference constructs provably valid confidence intervals and hypothesis tests while leveraging any black-box machine learning model and handling any data distribution. The key point is that it achieves the same level of accuracy with far fewer samples than existing baselines relying on non-adaptively-collected data. This means that for the same number of collected samples, active inference enables smaller confidence intervals and more powerful p-values. We evaluate active inference on datasets from public opinion research, census analysis, and proteomics.