要旨: 本研究では、トランスフォーマーのフィードフォワードネットワーク(FFN)におけるチャネル単位の重要度の組織化を調べます。活性-勾配の第2モーメントに基づくフィッシャー型の損失代理(LP)を用いることで、損失感度が各層内の少数のチャネルに集中していることを示します。Llama-3.1-8Bでは、層ごとの上位1%のチャネルがLP質量の中央値58.7%を占め、範囲は33.0%から86.1%です。これらの損失臨界(loss-critical)チャネルをスーパーノードと呼びます。FFN層には強い活性外れ値(outlier)も含まれますが、LPで定義したスーパーノードは活性で定義した外れ値とわずかにしか重ならず、活性パワーや重みノルムだけでは説明できません。この核の周囲には、より弱いものの一貫したハロー構造が見られます。すなわち、いくつかの非スーパーノードチャネルはスーパーノードの書き込み(write)サポートを共有し、保護された核との間でより強い冗長性を示します。これらの組織化を診断するテストとして、ワンショット型の構造化FFNプルーニングを用います。FFNスパース度50%では、多くのスーパーノードを取り除くベースラインは急激に劣化します。一方、提案するSCARバリアントはスーパーノード核を明示的に保護します。最も強力なバリアントであるSCAR-Protは、Wanda-channelでの989.2に対して、パープレキシティ54.8を達成します。LP集中のパターンはMistral-7B、Llama-2-7B、Qwen2-7Bで観測され、Llama-3.1-70Bの対象実験でも引き続き可視です。さらにOLMo-2-7Bの事前学習の間に増大します。これらの結果は、LLMのFFNが損失臨界な少数のチャネルからなる小さな学習された核を形成し、この核を保持することが信頼できる構造化プルーニングに重要であることを示唆しています。
「Supernodes」と「Halos」:LLMのFFN層における損失に直結するハブチャネル
arXiv cs.LG / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文はTransformerのフィードフォワードネットワーク(FFN)を解析し、活性と勾配の2次モーメントに基づくフィッシャー風の損失プロキシ(LP)を用いて、損失感度が各層のわずかなチャネルに集中することを示す。
- Llama-3.1-8Bでは、各層の上位1%のチャネルがLP質量の中央値58.7%(33.0%〜86.1%の範囲)を占め、これらを「supernodes」と呼ぶ。
- supernodesは活性定義の外れ値(outliers)とは弱くしか重ならず、活性の強さや重みのノルムだけでは説明できないため、損失に直結する独自の構造が示唆される。
- supernodeコアの周囲では、「halo」と呼ばれるより弱い構造が観測され、非supernodeチャネルの一部が書き込みサポートを共有し、保護されたコアと冗長性が強いことが分かる。
- 1ショットの構造化FFNプルーニング実験では、supernodeを保護するSCAR系が大幅に性能を維持し、最良のSCAR-Protは50%スパース化でperplexity 54.8を達成(Wanda-channelは989.2)し、さらに複数のLLM系統で類似のLP集中パターンが見られるほか、プリトレーニング中に集中が強まることも示される。



