GRASPrune：大規模言語モデル向けの予算制約付き構造化プルーニングのためのグローバル・ゲーティング

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

GRASPruneは、FFNチャネルとKVヘッド・グループを単一のグローバル予算のもとで同時に削る、大規模言語モデル向けの事前学習後（ポストトレーニング）の構造化プルーニング手法です。
予備算に従うハードなマスクを学習の各ステップで常に満たすために、投影付きストレートスルー推定器を用いたゲートスコアを学習し、バックボーン重みは凍結したままです。
残すユニットを固定した後、プルーニングによるスケール不一致を抑えるためにスケーリング係数をキャリブレーションし、これを削減後の重みに折り込んで推論時に追加パラメータ不要の小型な密（dense）チェックポイントを得ます。
LLaMA-2-7Bで、GRASPruneはパラメータを50%削減し、WikiText-2のパープレキシティ12.18を報告しつつ、5つのベンチマークでのゼロショット精度も競争力のある水準を維持しており、完全なファインチューニングなしでNVIDIA A100 80GB 1台により512の未ラベル・キャリブレーション系列を4エポック使用しています。

日経XTECH

AI-SCHOLAR

Dev.to

ITmedia AI+

Dev.to