教師なし学習における汎化誤差の情報幾何学的分解

arXiv stat.ML / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、教師なし学習における汎化誤差(期待されるKLダイバージェンス)を、モデル誤差、データバイアス、分散の3つの非負な項へと、正確な情報幾何学的分解を与える。
  • この分解は任意のe-flatなモデルクラスに対して成り立ち、一般化ピタゴラスの定理および情報幾何学における双対e-混合分散恒等式から導出される。
  • 具体例として、著者らはランク正則化を施したPCAの変種(ε-PCA)を解析し、等方的ガウスデータに関する技術的な再定式化のもとで、各分解成分が閉形式の表現を持つことを示す。
  • 最適なPCAのランク打ち切り(カットオフ)は λ*_{cut}=ε として決定される。これは、モデル誤差の低減とデータバイアスの増大の回避とのトレードオフを反映しており、カットオフは限界変化率の釣り合いに結び付けられている。
  • 境界比較を用いることで、本研究は3つのレジーム(retain-all、interior、collapse)からなる相図を導出し、遷移点をMarchenko–Pasturの端と結び付ける。さらに、解析的に計算可能な崩壊閾値 ε*(α) を与え、全ての結果を数値的に検証する。