剪定(プルーニング)が特徴をどう再形成するか:重み剪定された言語モデルに対するスパースオートエンコーダ分析
arXiv cs.LG / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、非構造的な重み剪定が言語モデル内部の特徴幾何(feature geometry)をどのように再形状化するかを体系的に研究しており、解釈可能性プローブとしてスパースオートエンコーダ(SAE)を、複数のモデルファミリおよび複数の疎(スパース)率にわたって用いる。
- その結果、まれなSAE特徴(発火率が低い特徴)は、頻出の特徴よりも剪定後にずっとよく生き残ることが示される。これは、剪定が、汎用的な高頻度特徴を優先的に除去する暗黙の特徴選択として振る舞うことを示唆している。
- Wanda剪定は、マグニチュード剪定よりも特徴構造を大幅に保持することが示され(最大で約3.7×)、またSAEによる解釈可能性は、50%の疎率までWanda剪定モデルに対して有効である。
- 著者らは重要な解離(dissociation)を報告している。すなわち、剪定下での特徴の幾何学的生存が因果的重要性を必ずしも信頼できる形では予測しない、という点である。これにより、圧縮後の解釈可能性を幾何だけから推定することの限界が明らかになる。
- 本研究は、安定性、特徴の生存、SAEの転移可能性、脆弱性、そして因果的関連性を検討し、圧縮されたLLMを解釈するうえで有用ないくつかの実験的知見を提供する。



