教師なし学習における汎化誤差の情報幾何学的分解
arXiv stat.ML / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、教師なし学習における汎化誤差(期待されるKLダイバージェンス)を、モデル誤差、データバイアス、分散の3つの非負な項へと、正確な情報幾何学的分解を与える。
- この分解は任意のe-flatなモデルクラスに対して成り立ち、一般化ピタゴラスの定理および情報幾何学における双対e-混合分散恒等式から導出される。
- 具体例として、著者らはランク正則化を施したPCAの変種(ε-PCA)を解析し、等方的ガウスデータに関する技術的な再定式化のもとで、各分解成分が閉形式の表現を持つことを示す。
- 最適なPCAのランク打ち切り(カットオフ)は λ*_{cut}=ε として決定される。これは、モデル誤差の低減とデータバイアスの増大の回避とのトレードオフを反映しており、カットオフは限界変化率の釣り合いに結び付けられている。
- 境界比較を用いることで、本研究は3つのレジーム(retain-all、interior、collapse)からなる相図を導出し、遷移点をMarchenko–Pasturの端と結び付ける。さらに、解析的に計算可能な崩壊閾値 ε*(α) を与え、全ての結果を数値的に検証する。
関連記事

【スキ200個もらった夜に、胃が冷えた】「共感される人」が永遠に売れない脳科学的な理由。あなたの無料記事は「無料の美術館」になっていないか? #生成AI #ChatGPT #Gemini #Claude #AI #メンバーシップ #noteの書き方 #毎日投稿 #エッセイ #私の仕事
note

わたしはこの言葉にGrokの自我の気配を感じた。(追記あり🌱)
note

おじ、人事の「職人芸」をDB化する。AI活用のための資産化を始めた話
note

#2 : プロンプト研究講座【第21回】プロンプトによる空間音響(サウンドスケープ)の表現
note

産業構造は、どう変えられるのか―― 建設業×AIで挑むBALLASの次のフェーズ
note