S2MAM:ロバスト推定と変数選択のための半教師ありメタ加法モデル

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、リーマン多様体の幾何学的構造という前提のもとで、ラベル付き・ラベルなしデータを同時に学習するための半教師ありメタ加法モデルS2MAMを提案する。
  • Laplace-Beltrami/ラプラシアン正則化が固定のグラフラプラシアンに依存することによって、冗長またはノイズを含む変数に対して不適切な罰則が生じ得る問題を扱う。
  • S2MAMは2階層最適化を用い、(i) 有用な変数を自動で選択し、(ii) 類似度行列を更新し、(iii) 解釈可能な予測を同時に実現する。
  • 計算の収束や統計的な一般化境界を含む理論的保証が提示されている。
  • 合成データ4件と実データ12件の実験で、さまざまな汚染条件に対して提案手法が頑健性と解釈可能性を向上させることが示される。

Abstract

半教師あり学習におけるマンフォールド正則化は、ラベル付きデータとラベルなしデータの両方から同時に学習するための古典的な枠組みであり、重要な要件は、未知の限界分布のサポートがリーマン多様体の幾何学的構造を持つことである。通常、ラプラシアン・ベル卜ラミ作用素に基づくマンフォールド正則化は、全学習データとそれに対応するグラフラプラシアン行列に関連するラプラシアン正則化によって経験的に近似できる。しかし、グラフラプラシアン行列は事前に指定された類似度メトリクスに大きく依存しており、冗長またはノイズを含む入力変数を扱う場合には不適切な罰則につながり得る。上記の問題に対処するため、本論文では、二水準最適化(bilevel optimization)スキームに基づく新しい\textit{半教師ありメタ加法モデル(S^2MAM)}を提案する。この枠組みは、情報を含む変数を自動的に特定し、類似度行列を更新しつつ、同時に解釈可能な予測を達成する。S^2MAMについて、計算収束と統計的汎化境界を含む理論的保証が提示される。さらに、4つの合成データセットと12の実世界データセットにわたる実験的評価(汚染のレベルおよびカテゴリが異なる)により、提案手法の頑健性と解釈可能性が検証される。