語彙空間におけるMLPニューロン重みの分離
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、順伝播(forward pass)を一切行わないデータフリーの機械論的解釈手法ROTATE(Rotation-Optimized Token Alignment in weighT spacE)を提案する。
- ROTATEは、モデルの語彙空間へ射影したときに、まとまりのある一義的(monosemantic)概念に対応するニューロンの重みは高い尖度(kurtosis)を示す、という統計的洞察を用いる。
- ニューロンの重みベクトルに対する回転を最適化し、語彙空間での尖度を最大化することで、「語彙チャネル(vocabulary channels)」と呼ばれる疎で解釈可能な方向を復元する。
- Llama-3.1-8B-InstructおよびGemma-2-2B-itでの実験では、復元された語彙チャネルが、特定チャネルをアブレーション(無効化)した際の狙い通りの効果を含む、ニューロンの機能的挙動と一致することが示される。
- チャネル単位の記述を集約することで、活性(activation)ベースラインよりも包括的なニューロン解釈が得られ、比較において性能が約2〜3倍向上する。




