多方向(multiway)依存に対するクロスフィッティング不要の、非偏化機械学習

arXiv stat.ML / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、GMM設定における2段階の非偏化機械学習(DML)推定量について、多方向クラスタリング(multiway)の一般的な依存を前提とした漸近理論を提示し、特にクロスフィッティングを不要とする点を扱う。
  • 第1段階の学習器が複雑である場合、また独立クラスタ数によって実効標本サイズが制限される場合、クロスフィッティングは統計的に非効率であり、計算コストも高くつき得ると主張する。
  • 著者らは、サンプル分割を用いずに、Neyman直交(Neyman-orthogonal)なモーメント条件と、クラスタリング次元の任意の数を扱えるローカライゼーション(localisation)に基づく経験過程手法を組み合わせることで、有効な推論を達成する。
  • 得られる非偏化GMM推定量は、多方向クラスタ依存の下で、漸近線形性および漸近正規性を満たすことが証明される。
  • 重要な貢献として、別々に交換可能な配列の和として定義される関数クラスに対する、新しい大域的および局所的な最大不等式を開発しており、DMLへの直接的な適用を超えて有用となり得る。

要旨:本論文は、クロスフィッティングに依存せずに、一般化モーメント法(GMM)モデルにおける2段階のデバイアス済み機械学習(DML)推定量の漸近理論を確立する。ここでの依存構造は、一般的な多方向(multiway)クラスタ依存である。クロスフィッティングは一般に用いられるが、第1段階の学習器が複雑であり、実効サンプルサイズが独立クラスタ数によって決まる場合には、統計的に非効率であり、計算上の負担も大きくなり得る。われわれは、Neyman-直交(Neyman-orthogonal)なモーメント条件と、ローカライゼーションに基づく経験過程(empirical process)のアプローチを組み合わせることで、サンプル分割(sample splitting)を行わずとも妥当な推論が達成できることを示す。これにより、クラスタリング次元の数は任意にできる。得られたデバイアス済みGMM推定量は、多方向クラスタ依存のもとで漸近的に線形かつ漸近的に正規であることが示される。本論文の中心的な技術的貢献は、別々に交換可能(separately exchangeable)な配列の和の一般的な関数のクラスに対して、新しい大域的(global)および局所的(local)な最大不等式(maximal inequalities)を導出することであり、これが理論的議論の基盤となるとともに、独立した関心も持たれる。