語彙空間におけるMLPニューロン重みの分離

arXiv cs.CL / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、順伝播(forward pass)を一切行わないデータフリーの機械論的解釈手法ROTATE(Rotation-Optimized Token Alignment in weighT spacE)を提案する。
  • ROTATEは、モデルの語彙空間へ射影したときに、まとまりのある一義的(monosemantic)概念に対応するニューロンの重みは高い尖度(kurtosis)を示す、という統計的洞察を用いる。
  • ニューロンの重みベクトルに対する回転を最適化し、語彙空間での尖度を最大化することで、「語彙チャネル(vocabulary channels)」と呼ばれる疎で解釈可能な方向を復元する。
  • Llama-3.1-8B-InstructおよびGemma-2-2B-itでの実験では、復元された語彙チャネルが、特定チャネルをアブレーション(無効化)した際の狙い通りの効果を含む、ニューロンの機能的挙動と一致することが示される。
  • チャネル単位の記述を集約することで、活性(activation)ベースラインよりも包括的なニューロン解釈が得られ、比較において性能が約2〜3倍向上する。

Abstract

モデルの重みにエンコードされた情報を解釈することは、機構的解釈可能性において根本的な課題であり続けています。本研究では、順伝播(forward pass)を一切必要としないデータフリー手法であるROTATE(Rotation-Optimized Token Alignment in weighT spacE)を提案します。この手法は、MLPニューロンを重み空間の中で直接に分離します。私たちのアプローチは、重要な統計的観察に基づいています。すなわち、首尾一貫した単一の意味(monosemantic)コンセプトをエンコードするニューロンは、モデルの語彙(vocabulary)へ射影したときに高い尖度(kurtosis)を示します。ニューロンの重みの回転(rotation)を、語彙空間における尖度を最大化するように最適化することで、私たちの手法は「語彙チャンネル(vocabulary channels)」と名付けた、疎で解釈可能な方向を復元します。Llama-3.1-8B-InstructおよびGemma-2-2B-itに対する実験により、ROTATEが一貫してニューロンの挙動に忠実な語彙チャンネルを回復できることが示されます。個々のチャンネルを選択的にアブレーションすると、対応する入力活性の無効化、または特定のコンセプトの促進が選択的に失われます。さらに、チャンネル単位の記述を集約することで、包括的なニューロン記述が得られ、最適化された活性ベースのベースラインを、頭対頭の比較で2〜3倍上回ります。ニューロンの重みをデータフリーで分解することで、ROTATEは言語モデルを解釈するための、スケーラブルで微細な構成要素を提供します。