表現階層によって「剪定(プルーニング)」が機能するタイミングを解き明かす

arXiv cs.LG / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、表現階層という観点を用いて、ネットワーク剪定が一部の言語タスクでは性能を安定して維持する一方で、生成タスクではしばしば破綻する理由を調査する。
  • 著者らは、言語モデル内部の計算を、埋め込み(隠れ表現)、ロジット(ソフトマックス前の出力)、確率(ソフトマックス後の分布)という3つの空間に分解し、剪定による摂動がどこで重要になるのかを特定する。
  • 埋め込み表現とロジット表現は剪定に対して概ね頑健であるのに対し、ロジット→確率の非線形な変換ステップが偏差を増幅し、生成時の各時間ステップでそれが累積されることを著者らは見出す。
  • この仕組みにより、確率空間の安定性が保たれる非生成タスク(例:検索や複数選択問題の選択)では、剪定がよりうまく機能しやすい理由が説明できる。
  • 本研究は、対象タスクの種類に応じて剪定戦略を選ぶための、解きほぐされた指針を提供し、あわせてコードも公開する。

Abstract

ネットワークプルーニング(重要度の低いパラメータやアーキテクチャを取り除くこと)は、性能を維持しつつ効率を改善すると期待されることが多いです。しかし、この期待は言語タスクをまたいで一貫して成り立つわけではありません。プルーニングされたモデルは非生成タスクではうまく機能する一方で、生成設定ではしばしば失敗します。この不一致を理解するために、表現階層(representation-hierarchy)の観点からネットワークプルーニングを分析し、言語モデル内部の計算を3つの連続した空間に分解します。すなわち、embedding(埋め込み:隠れ表現)、logit(ソフトマックス前の出力)、probability(ソフトマックス後の分布)です。埋め込み空間およびlogit空間における表現は、プルーニングによって生じる攪乱に対して概ね頑健であることが分かります。一方で、logitからprobabilityへの非線形変換はこれらの偏差を増幅し、時刻ステップをまたいで蓄積することで、生成時に大きな劣化を引き起こします。対照的に、カテゴリー(カテゴリ)トークン確率サブ空間の安定性と、埋め込み空間の頑健性が組み合わさることで、検索や複数選択(multiple-choice selection)といった非生成タスクに対してプルーニングが有効であることが支持されます。本分析は、タスク間におけるプルーニングの効果を切り分け、実運用に向けた具体的な指針を提供します。コードは https://github.com/CASE-Lab-UMD/Pruning-on-Representations で公開されています