近傍点を用いた高度にスケーラブルなガウス過程回帰の理論と実践

arXiv stat.ML / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的なガウス過程(GP)回帰におけるスケーラビリティのボトルネックに取り組み、近傍の学習データ点のみを用いて予測する近傍点GPの変種(NNGP/GPnn)に焦点を当てる。
  • さらに、MSE、較正(CAL)、負の対数尤度(NLL)といった予測性能指標について、比較的穏当な正則性仮定のもとでほぼ確実な点ごとの極限を確立する理論的枠組みを構築する。
  • 著者らは、L2リスクの上界、普遍的一貫性を証明し、手法がStoneのミニマックス・レート n^{-2α/(2p+d)} を達成することを示す。これにより、性能が問題の滑らかさ/正則性パラメータ(α, p)と次元数(d)に結び付く。
  • 有界なハイパーパラメータ集合上でのMSEの一様収束を示し、主要なハイパーパラメータ(長さスケール、カーネル・スケール、ノイズ分散)に関するMSEの勾配が漸近的に消失することを証明する。これにより、GPnnのチューニングにおける実務上の頑健性に対する理論的裏付けを与える。
  • 全体として、本研究は大規模データセット上でのフルGPモデルに代わる、原理に基づく高度にスケーラブルな手法としてNNGP/GPnnを、厳密な統計的基盤のもとで位置付ける。

Abstract

ガウス過程(GP)回帰は広く用いられている非パラメトリックなモデリング手法ですが、学習サイズに対する計算量が立方(cubic)であるため、大規模データセットへの適用が制限されます。実用的な解決策として、各テスト点の最近傍のみを用いて予測する方法があり、地理空間問題に対する最近傍ガウス過程(Nearest Neighbour Gaussian Process, NNGP)回帰や、より一般的な機械学習応用向けの関連するスケーラブル手法である GPnn が挙げられます。強力な経験的性能にもかかわらず、NNGP/GPnn の大-n 理論は未完成です。本研究では、NNGPGPnn 回帰のための理論的枠組みを開発します。弱い正則性(mild regularity)の仮定のもとで、3つの主要な予測指標、すなわち平均二乗誤差(MSE)、較正係数(CAL)、負の対数尤度(NLL)について、ほとんど確実な点ごとの極限を導出します。次に、L_2 リスクを調べ、普遍的一貫性を証明し、リスクが Stone のミニマックス率 n^{-2\alpha/(2p+d)} を達成することを示します。ここで、\alphap は回帰問題の正則性を捉えます。さらに、コンパクトなハイパーパラメータ集合上での MSE の一様収束を証明し、長さスケール、カーネルのスケール、ノイズ分散に関する MSE の導関数が漸近的に消失することを、明示的な収束率とともに示します。これにより、ハイパーパラメータ調整に対する GPnn の観測された頑健性が説明されます。これらの結果は、フル GP モデルに対する、非常にスケーラブルで原理に基づく代替としての NNGP/GPnn に対し、厳密な統計的基盤を与えるものです。