要約: 本論文は、最小記述長(MDL)原理を深層ニューラルネットワークの学習ダイナミクスに根本的に組み込む新しい最適化フレームワークを提案する。従来のモデル選択基準としての役割を超え、MDLを最適化プロセス自体の能動的で適応的な駆動力として再定式化する。
本手法の核は、幾何学的に基づく認知多様体で、その進化は\textit{結合リッチ流}によって支配され、第一原理から導出された新規の\textit{MDL駆動}項で強化されている。
この駆動は、タスク損失の勾配によって調整され、データ忠実度とモデルの単純化との間に滑らかな調和を生み出し、学習中に内部表現を積極的に圧縮する。
我々は包括的な理論的基盤を確立し、記述長の単調な減少(定理~\ref{thm:convergence})を含む主要な特性、幾何学的手術プロトコルによる有限回の位相転換(定理~\ref{thm:surgery}, \ref{thm:ultimate_fate})、および普遍的臨界挙動の出現(定理~\ref{thm:universality})を証明する。
さらに、O(N \log N) の1回の反復あたりの計算量を持つ実用的で計算効率の高いアルゴリズムを提供し(定理~\ref{thm:complexity})、数値安定性の保証(定理~\ref{thm:stability})と凸性仮定下での指数収束(定理~\ref{thm:convergence_rate})を併せて提供する。
合成データを用いた回帰および分類タスクでの経験的検証は、理論予測を裏付け、堅牢な汎化と自律的なモデルの簡素化を達成するアルゴリズムの有効性を示している。
この研究は、幾何学的ディープラーニングと情報理論の原理を統一することにより、より自律的で汎用性が高く、解釈可能なAIシステムへ向かう原則的な道筋を提供する。
深層学習におけるMDLベース最適化の幾何学的根拠に基づく駆動力
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、最小説明長(MDL)原理を訓練中の駆動力として積極的に活用する新しい最適化フレームワークを提案する。
- 幾何学的根拠を持つ認知多様体の進化は、結合されたリッチ流とMDLドライブ項によって規定され、データ適合性とモデルの単純化のバランスを取る。
- 著者らは、記述長の単調減少、幾何手術による有限回の位相転換、および普遍的臨界挙動といった理論的性質を証明する。
- 実践的なアルゴリズムを提示し、1回の反復あたりの計算量をO(N log N)、数値安定性と凸性下での指数収束を保証する。
- 合成タスクにおける経験的検証は、堅牢な一般化と自律的なモデル単純化を示し、より自律的で解釈可能なAIシステムの可能性を示している。