パーミュテーションを用いたスケーラブルなニーストローム近似ベースのカーネル二標本検定

arXiv stat.ML / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、2つのデータセットが同一分布から生成されたかどうかを判定する二標本仮説検定を扱い、スケーラブルな手法を提案している。
最大平均差（MMD）に基づく検定を大規模シナリオで実用化するために、MMDをニーストローム近似で置き換えることで計算コストを抑えている。
提案法について有限標本の理論的保証を示し、MMDに関して十分に離れている分布に対する検定のパワーの上界を与えている。
得られた分離率は、この設定における既知のミニマックス最適率と一致すると主張している。
数値実験により、現実的な科学データへの適用可能性と計算効率の高さを示している。

概要: 2標本仮説検定、すなわち2つのデータ集合が同一の分布から生成されたのかを判断することは、統計および機械学習における基本的な問題であり、幅広い科学的応用があります。ノンパラメトリック検定の文脈では、最大平均差（MMD）は、その柔軟性と強固な理論的基盤により、検定統計量として広く用いられるようになってきました。しかし、その大規模シナリオでの利用は、高い計算コストに悩まされています。本研究では、MMDのナイストロム近似を用いて、統計的保証を維持しつつ計算効率が高く実用的な検定アルゴリズムを設計します。主要な結果は、MMDに関して十分に離れている分布に対して、提案する検定のパワーに関する有限標本の評価（バウンド）を与えることです。導出された分離率は、この設定における既知のミニマックス最適率と一致します。さらに一連の数値実験により、現実的な科学データへの適用可能性を強調しながら、これらの知見を支持します。