概要: 極端なニューラルネットワークのスパース化(活性化の90%削減)は、機構的解釈可能性にとって重大な課題を提示します。解釈可能な特徴が過度の圧縮を生き残るかどうかを理解することです。本研究は、ハイブリッド Variational Autoencoder--Sparse Autoencoder (VAE-SAE) アーキテクチャにおける厳しい容量制約下での特徴の生存を調査します。私たちは、活性ニューロンを500から50へと50エポックにわたって漸進的に削減する適応的なスパース性スケジューリングの枠組みを導入し、スパース化と解釈可能性の関係の基本的な限界を実証的に示します。dSprites と Shapes3D の2つのベンチマークデータセットを用い、Top-k と L1 のスパース化手法の両方で検証したところ、私たちの主要な発見は普遍的なパラドックスを明らかにします:全体的な表現品質(Mutual Information Gap によって測定される)が安定している一方で、局所的な特徴の解釈可能性は体系的に崩壊します。Top-k スパース化の下では、デッドニューロンの割合は dSprites で 34.4\pm0.9\%、Shapes3D で 62.7\pm1.3\% に達します(k=50)。一方、根本的に異なる「ソフト制約」パラダイムである L1 正則化は、等しいかそれ以下の崩壊を生み出します:dSprites で 41.7\pm4.4\%、Shapes3D で 90.6\pm0.5\%。追加で100エポックの訓練を行ってもデッドニューロンは回復せず、崩壊パターンは試した全閾値定義に対して頑健です。重要なのは、崩壊はデータセットの複雑さに比例して拡大する点です。Shapes3D(RGB, 6 要因)は Top-k の下で dSprites(グレースケール, 5 要因)より 1.8\times 多いデッドニューロンを示し、L1 では 2.2\times となります。これらの知見は、スパース化による解釈可能性の崩壊が、特定のアルゴリズム、訓練期間、閾値の選択のアーティファクトではなく、圧縮プロセス自体に内在することを示しています。
ニューラルネットワークのスパース化の根本的な限界:壊滅的な解釈性崩壊に関する証拠
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、極端なニューラルネットワークのスパース化(活性化の最大90%削減まで)と、それがハイブリッド VAE-SAE アーキテクチャにおける機構的解釈性へ及ぼす影響を検討している。
- 活性ニューロンを500個から50個へ、50エポックにわたって削減する適応的スパース性スケジューリングを導入し、グローバルな表現品質は安定している一方で局所的な解釈性が崩壊するという根本的な限界を明らかにする。
- Top-k および L1 スパース化を用いた dSprites と Shapes3D の実験は、k=50 において死ニューロンの割合が顕著に高いことを示す(例:Top-k では dSprites が 34.4%、Shapes3D が 62.7%、L1 では 41.7% および 90.6%)。拡張トレーニングを行っても死ニューロンを回復できない。
- 崩壊はデータセットの複雑さに比例して拡大する。Shapes3D は dSprites より著しく多くの死ニューロンを示しており、この現象は圧縮自体に固有のもので、手法・期間・閾値の影響によるものではないことを示している。




