教師なし学習における汎化誤差の情報幾何学的分解

arXiv stat.ML / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、教師なし学習における汎化誤差（期待されるKLダイバージェンス）を、モデル誤差、データバイアス、分散の3つの非負な項へと、正確な情報幾何学的分解を与える。
この分解は任意のe-flatなモデルクラスに対して成り立ち、一般化ピタゴラスの定理および情報幾何学における双対e-混合分散恒等式から導出される。
具体例として、著者らはランク正則化を施したPCAの変種（ε-PCA）を解析し、等方的ガウスデータに関する技術的な再定式化のもとで、各分解成分が閉形式の表現を持つことを示す。
最適なPCAのランク打ち切り（カットオフ）は λ*_{cut}=ε として決定される。これは、モデル誤差の低減とデータバイアスの増大の回避とのトレードオフを反映しており、カットオフは限界変化率の釣り合いに結び付けられている。
境界比較を用いることで、本研究は3つのレジーム（retain-all、interior、collapse）からなる相図を導出し、遷移点をMarchenko–Pasturの端と結び付ける。さらに、解析的に計算可能な崩壊閾値 ε*(α) を与え、全ての結果を数値的に検証する。