GRASPrune:大規模言語モデル向けの予算制約付き構造化プルーニングのためのグローバル・ゲーティング
arXiv cs.AI / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- GRASPruneは、FFNチャネルとKVヘッド・グループを単一のグローバル予算のもとで同時に削る、大規模言語モデル向けの事前学習後(ポストトレーニング)の構造化プルーニング手法です。
- 予備算に従うハードなマスクを学習の各ステップで常に満たすために、投影付きストレートスルー推定器を用いたゲートスコアを学習し、バックボーン重みは凍結したままです。
- 残すユニットを固定した後、プルーニングによるスケール不一致を抑えるためにスケーリング係数をキャリブレーションし、これを削減後の重みに折り込んで推論時に追加パラメータ不要の小型な密(dense)チェックポイントを得ます。
- LLaMA-2-7Bで、GRASPruneはパラメータを50%削減し、WikiText-2のパープレキシティ12.18を報告しつつ、5つのベンチマークでのゼロショット精度も競争力のある水準を維持しており、完全なファインチューニングなしでNVIDIA A100 80GB 1台により512の未ラベル・キャリブレーション系列を4エポック使用しています。



