ガウス過程に対するVecchia誘導点のフルスケール近似

arXiv stat.ML / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、大規模データセットに対するスケーラビリティを改善するために、グローバルな誘導点の発想とローカルなVecchia近似を統合した、Vecchia誘導点フルスケール（VIF）のガウス過程近似を提案する。
残差過程に対して相関に基づく効率的な近傍探索戦略を用い、入力次元の違いや共分散の滑らかさに関するレジームをより適切に扱うために、改良したカバーツリー（cover tree）アルゴリズムとして実装している。
非ガウス尤度に対して、著者らは反復的な学習・予測手法を開発し、新しい前処理（preconditioner）と理論的な収束保証を提示する。これにより、ラプラス近似の下でのチョレスキー（Cholesky）ベースのアプローチと比べ計算量を大幅に削減することを目指す。
模擬データおよび実データに関する大規模な実験により、VIFが最先端の代替法よりも高精度で、数値的に安定かつ計算効率が高いことが示される。
本手法は、実用的な導入のためにPythonおよびRのインターフェースを備えたオープンソースのC++ GPBoostライブラリとして公開されている。

概要: ガウス過程は、機械学習および統計で広く用いられている柔軟で確率的な非パラメトリックモデルです。しかし、大規模データセットへのスケーラビリティは計算上の制約によって制限されています。これらの課題を克服するために、グローバルな誘導点とローカルなVecchia近似の長所を組み合わせた、Vecchia誘導点フルスケール（VIF）近似を提案します。Vecchia近似は、低次元の入力や中程度に滑らかな共分散関数をもつ設定で特に優れている一方、誘導点法は高次元の入力やより滑らかな共分散関数に適しています。私たちのVIF手法は、残差過程のVecchia近似に対して効率的な相関ベースの近傍探索戦略を用い、それを修正したカバー木アルゴリズムによって実装することで、この2つの領域をつなぎます。さらに、ラプラス近似を用いる場合に、コレスキー分解ベースの計算と比べて、学習と予測のための計算コストを桁違いに大幅に削減する反復手法を導入することで、私たちの枠組みを非ガウス尤度へ拡張します。特に、独自の前処理器を提案し比較するとともに、理論的な収束結果を示します。シミュレーションおよび実世界のデータセットに対する大規模な数値実験により、VIF近似は、最先端の代替手法と比べて、計算効率が高いだけでなく、より高い精度と数値的安定性を有することが示されています。すべての手法は、オープンソースのC++ライブラリGPBoostに実装されており、高水準のPythonおよびRインターフェースを提供します。