要旨: 疎なニューラルネットワークは、密なモデルよりも解釈可能性が高いとされることが多く、重みのスパース性が言語モデルにおいてコンパクトな回路を生み出すことができるという知見に動機づけられている。しかし、構造的スパース性自体が意味解釈性の向上につながるのかは依然として不明である。本研究では、Wandaで剪定された DeiT-III B/16 モデルを用いて、視覚トランスフォーマーにおける重みのスパース性と解釈性の関係を系統的に評価する。解釈性を総合的に評価するために、\textbf{IMPACT}、4つの補完的なレベル(ニューロン、層表現、タスク回路、モデルレベルのアトリビューション)にわたって解釈性を評価するマルチレベルフレームワークを導入します。層表現は BatchTopK スパースオートエンコーダーを用いて分析され、回路は学習可能なノードマスキングによって抽出され、説明は挿入および削除の指標を用いたトランスフォーマーアトリビューションで評価される。我々の結果は明確な構造的効果を示すが、解釈可能性の向上は限定的である。疎なモデルは密なモデルより約 2.5\times 少ないエッジを持つ回路を生成するが、アクティブなノードの割合は同程度かそれ以上であり、剪定は単純な機能モジュールを分離するのではなく、計算を再配分していることを示している。これらの観察と一致して、疎なモデルはニューロンレベルの選択性、SAE特徴の解釈性、またはアトリビューションの忠実度において体系的な改善を示さない。これらの知見は、構造的スパース性だけでは、より解釈しやすいビジョンモデルを安定的に生み出すとは言えないことを示唆しており、回路のコンパクトさを超えて解釈性を評価する評価フレームワークの重要性を浮き彫りにしている。
スパースだが単純にはならない:Vision Transformers のマルチレベル解釈可能性分析
arXiv cs.CV / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- IMPACTを導入し、ニューロン、層表現、タスク回路、モデルレベルのアトリビューションを評価する、Vision Transformers向けのマルチレベル解釈可能性フレームワーク。
- 本研究は、Wandaで剪定されたDeiT-III B/16モデルにこのフレームワークを適用し、BatchTopKスパースオートエンコーダや学習可能なノードマスキングなどの技術を用いて表現と回路を分析する。
- 結果として、構造的スパース性はエッジ数を約2.5倍削減する一方、活性ノード数は同程度か増加しており、剪定は単純なモジュールを生み出すのではなく計算を再分配していることを示す。
- ニューロンレベルの選択性、SAE特徴の解釈性、あるいはアトリビューションの忠実性に系統的な向上は見られず、スパース性だけでは視覚モデルの解釈可能性を確実に高めるものではないことを示唆する。
- 回路のコンパクトさだけでなく、解釈可能性を評価するフレームワークの必要性を主張する。