ローカルからグローバルへ:大規模言語モデルに対する構造化プルーニングのパラダイムを見直す
arXiv cs.CL / 2026/4/29
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本研究は、LLM向けに主流となっているローカルでタスク非依存の構造化プルーニングが、タスク固有のキャリブレーション情報を十分に活かせず、下流性能の改善が限定的になりがちだと指摘しています。
- その解決として、GISP(Global Iterative Structured Pruning)を提案し、注目ヘッドやMLPチャンネル単位で集約した、一次・損失ベースの重要度スコアを用いるポストトレーニング手法としています。
- GISPはワンショットではなく反復スケジュールでプルーニングを行い、高い疎度でも精度を安定させつつ、中間ファインチューニングなしでパープレキシティの崩壊を抑えることを狙っています。
- この手法はネストしたサブネットワークを生成するため、「一度プルーニングして多用途に展開する(prune-once, deploy-many)」ワークフローを可能にします。
- Llama2/3やMistral、DeepSeek、Qwenなど複数のオープンLLMでの実験により、パープレキシティの低下と下流タスク精度の向上が一貫して確認され、特に40〜50%の疎度で効果が大きいことが示されています。



