Abstract
ガウス過程(GP)回帰は広く用いられている非パラメトリックなモデリング手法ですが、学習サイズに対する計算量が立方(cubic)であるため、大規模データセットへの適用が制限されます。実用的な解決策として、各テスト点の最近傍のみを用いて予測する方法があり、地理空間問題に対する最近傍ガウス過程(Nearest Neighbour Gaussian Process, NNGP)回帰や、より一般的な機械学習応用向けの関連するスケーラブル手法である GPnn が挙げられます。強力な経験的性能にもかかわらず、NNGP/GPnn の大-n 理論は未完成です。本研究では、NNGP と GPnn 回帰のための理論的枠組みを開発します。弱い正則性(mild regularity)の仮定のもとで、3つの主要な予測指標、すなわち平均二乗誤差(MSE)、較正係数(CAL)、負の対数尤度(NLL)について、ほとんど確実な点ごとの極限を導出します。次に、L_2 リスクを調べ、普遍的一貫性を証明し、リスクが Stone のミニマックス率 n^{-2\alpha/(2p+d)} を達成することを示します。ここで、\alpha と p は回帰問題の正則性を捉えます。さらに、コンパクトなハイパーパラメータ集合上での MSE の一様収束を証明し、長さスケール、カーネルのスケール、ノイズ分散に関する MSE の導関数が漸近的に消失することを、明示的な収束率とともに示します。これにより、ハイパーパラメータ調整に対する GPnn の観測された頑健性が説明されます。これらの結果は、フル GP モデルに対する、非常にスケーラブルで原理に基づく代替としての NNGP/GPnn に対し、厳密な統計的基盤を与えるものです。