表現階層によって「剪定(プルーニング)」が機能するタイミングを解き明かす
arXiv cs.LG / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、表現階層という観点を用いて、ネットワーク剪定が一部の言語タスクでは性能を安定して維持する一方で、生成タスクではしばしば破綻する理由を調査する。
- 著者らは、言語モデル内部の計算を、埋め込み(隠れ表現)、ロジット(ソフトマックス前の出力)、確率(ソフトマックス後の分布)という3つの空間に分解し、剪定による摂動がどこで重要になるのかを特定する。
- 埋め込み表現とロジット表現は剪定に対して概ね頑健であるのに対し、ロジット→確率の非線形な変換ステップが偏差を増幅し、生成時の各時間ステップでそれが累積されることを著者らは見出す。
- この仕組みにより、確率空間の安定性が保たれる非生成タスク(例:検索や複数選択問題の選択)では、剪定がよりうまく機能しやすい理由が説明できる。
- 本研究は、対象タスクの種類に応じて剪定戦略を選ぶための、解きほぐされた指針を提供し、あわせてコードも公開する。



