AI Navigate

全結合ニューラルネットワークにおける剪定誘発相: エウメンティア(学習)、デメンティア(忘却)、アメンティア(学習不能)

arXiv cs.LG / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、全結合ネットワークにおけるドロップアウト誘発の剪定に関して、エウメンティア(学習)、デメンティア(忘却)、アメンティア(学習不能)の3つの相を定義し、それらはクロスエントロピー損失が訓練データサイズとどのようにスケールするかによって区別される。
  • MNIST において訓練時と評価時の両方でドロップアウトを変化させることにより、ネットワークの幅と深さをまたいだ頑健な相境界を示す位相図を構築した。
  • エウメンティアとデメンティアの遷移は、スケール不変性と発散する長さスケールを伴い、(Berezinskii–Kosterlitz–Thouless-like) 転移に類似した特徴を示し、剪定挙動を統計力学へ結びつける。
  • 本研究は、剪定誘発のニューロン挙動がニューラルスケーリング則と普遍性類によって理解できる可能性を示唆し、モデル圧縮へ向けた理論的視点を提供する。

要約:現代のニューラルネットワークは大幅に過剰パラメータ化されており、冗長なニューロンや結合を削除するプルーニングは、性能を犠牲にすることなくそれらを圧縮するための重要な手法として浮上しています。しかし、実用的なプルーニング手法が十分に発展している一方で、プルーニングがニューラルネットワークに鋭い相転移を誘発するかどうか、もしそうならそれがどの普遍クラスに属するのかは、未解決の問題として残っています。これに対処するため、MNISTで訓練された全結合ニューラルネットワークを研究し、訓練段階と評価段階の dropout(ニューロンを取り除くこと)率を独立に変化させて、位相図を描きます。3つの異なる相を同定します:eumentia(ネットワークが学習する)、dementia(ネットワークが忘却した)、amentia(ネットワークが学習できない状態)。これらは、訓練データセットのサイズに対するクロスエントロピー損失のべき乗則的スケーリングによって鋭く識別されます。{eumentia相では、機械学習文献で neural scaling laws として記述される損失の代数的減衰は、統計力学の観点からは準長距離秩序の特徴となる。} eumentia相とdementia相の遷移は、スケール不変性を伴い、発散する長さスケールを持つベレジンスキー-コステリッツ風の転移の特徴を示します。相の構造は、ネットワークの幅と深さが異なる場合でも頑健です。私たちの結果は、ドロップアウトによって誘発されるプルーニングが、ニューラルネットワークの挙動を統計力学の視点で理解するための具体的な設定を提供することを示しています。