要旨:局所固有次元(Local Intrinsic Dimensionality: LID)の理論は、データマニフォールドの内部および間における局所的な複雑さを特徴づけるための有用な手段として確立されており、幅広いデータマイニングおよび機械学習タスクを支えています。正確なLID推定には、非局所的効果や潜在的なマニフォールドの混合によるバイアスを避けるため、各クエリの周りの小さな近傍から引かれたサンプルが必要です。しかし、そのような近傍内で得られるデータ量が限られると、推定分散が高くなる傾向があります。分散低減の戦略として、近傍(NN)距離の局所的な分布を保持するためにサブバギングを用いるアンサンブル手法を提案します。主な課題は、各サブサンプル内の総サンプル数を一様に減らすことにより、クエリ周りで固定された個数kのNNを見つけるための近接しきい値が増大してしまう点です。その結果、LID推定という特定の文脈では、サンプリング率が近傍サイズと追加的で複雑な相互作用を持ち、両者が結合して、推定において考慮されるサンプルサイズ、局所性、解像度の決定に影響します。本研究では、理論および実験の両方により、LID推定に用いるサンプリング率とk-NNサイズ、そしてアンサンブルサイズが性能に与える影響を分析し、アプリケーションに基づく嗜好に応じてこれらのハイパーパラメータを事前に適切に選択できるようにします。結果として、ハイパーパラメータ空間の広い範囲で十分に特徴づけられている領域では、対応するノン・バギング基準と比べて、バギングされた推定器が分散および平均二乗誤差を最も頻繁に有意に低減し、かつバイアスへの影響は制御可能であることが示されます。さらに、LID推定の性能を大幅に改善するために、バギングと近傍平滑化(neighborhood smoothing)を組み合わせるさまざまな方法も提案し、評価します。
局所固有次元推定におけるバギングの利用について
arXiv cs.LG / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は局所固有次元(LID)推定を扱い、信頼できる結果には、非局所的な影響やマニフォールドの混成を避けるために非常に局所的な近傍が必要である一方、分散を制御するためには十分なサンプル数を維持する必要があることを指摘している。