AI Navigate

GPrune-LLM: 大規模言語モデルの一般化を意識した構造的プルーニング

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • GPrune-LLM は、分布依存性が活性化ベースのニューロン重要度を偏らせ、LLM の構造的プルーニングにおける分布間一般化を損なうことを示している。
  • ニューロンを挙動が一貫したモジュールに分割し、順位付けの競合を局所化するとともに、分布依存性とスコアの大きさに応じてモジュールごとに指標の信頼性を評価する。
  • 活性化に基づくスコアリングが信頼できないモジュールに対しては、活性化に依存しない指標に切り替え、モジュールレベルで適応的にスパース性を学習する。
  • 複数の下流タスクにわたる実験は、圧縮後の一般化性能の一貫した改善を示し、特に高いスパース性の設定で顕著で、重要度指標の選択への依存も低減される。

概要:構造化プルーニングは大規模言語モデル(LLMs)を圧縮するために広く用いられているが、その有効性はニューロン重要度の推定に大きく依存する。ほとんどの既存手法は、単一の較正データセット上の活性化統計量からニューロン重要度を推定し、校正バイアスを導入して下流のタスク間一般化を低下させる。我々は、ニューロンが不均一な分布感度を示すことを観察しており、分布に頑健なニューロンはデータセット間で一貫したランキングを維持し、分布感度の高いニューロンはデータセット間で高いランキングばらつきを示す。これに基づき、既存手法には二つの構造的制限を特定する。第一に、共有スペース内ですべてのニューロンをランキングすると、較正入力で強く活性化する分布感度の高いニューロンが支配的になり、分布に頑健なニューロンがアウトオブディストリビューションのタスクにとって重要であるにも関わらず押しのけられる。第二に、活性化に基づく重要度指標を一様に適用することは信頼できない場合がある。較正データ上で頻繁には活性化しない分布感度の高いニューロンは、正確な局所ランキングのための十分な活性化信号を受け取らない。これらの制限に対処するため、分布間の挙動差を明示的に考慮した一般化志向の構造化プルーニングフレームワークであるGPrune-LLMを提案する。我々はまず、ニューロンを挙動の一貫性に基づくモジュールへ分割してランキング競合を局所化し、次に分布感度とスコアの大きさに基づいてモジュールごとの活性化ベースの指標信頼性を評価する。活性化ベースのスコアリングが信頼できないモジュールには、活性化に依存しない指標へ切り替える。最後に、モジュールごとにスパース性を適応的に学習する。複数の下流タスクにわたる広範な実験は、特に高いスパース性で、圧縮後の一般化におけるGPrune-LLMの一貫した改善と、重要度指標の選択への依存の低減を示している。