Abstract
半教師あり学習におけるマンフォールド正則化は、ラベル付きデータとラベルなしデータの両方から同時に学習するための古典的な枠組みであり、重要な要件は、未知の限界分布のサポートがリーマン多様体の幾何学的構造を持つことである。通常、ラプラシアン・ベル卜ラミ作用素に基づくマンフォールド正則化は、全学習データとそれに対応するグラフラプラシアン行列に関連するラプラシアン正則化によって経験的に近似できる。しかし、グラフラプラシアン行列は事前に指定された類似度メトリクスに大きく依存しており、冗長またはノイズを含む入力変数を扱う場合には不適切な罰則につながり得る。上記の問題に対処するため、本論文では、二水準最適化(bilevel optimization)スキームに基づく新しい\textit{半教師ありメタ加法モデル(S^2MAM)}を提案する。この枠組みは、情報を含む変数を自動的に特定し、類似度行列を更新しつつ、同時に解釈可能な予測を達成する。S^2MAMについて、計算収束と統計的汎化境界を含む理論的保証が提示される。さらに、4つの合成データセットと12の実世界データセットにわたる実験的評価(汚染のレベルおよびカテゴリが異なる)により、提案手法の頑健性と解釈可能性が検証される。