少ないものでより多く:テスト時スケーリングに対するLLMプルーニングの有効性を再検証する
arXiv cs.LG / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テスト時スケーリング(TTS)による推論性能が構造化プルーニングで大きく損なわれるという先行主張を再検証します。
- 推論特化LLMの2モデル(s1.1-7B と Qwen3-8B)を4つのベンチマークで評価した結果、非構造化プルーニングは構造化プルーニングよりもTTS性能を一貫して改善することが示されます。
- 場合によっては、適切に行われた非構造化プルーニングが、重みをそのまま維持した(非プルーンド)モデルを上回ることもあります。
- さらに、非構造化プルーニングを成立させる重要な設計要素である層ごとの疎度配分戦略が、結果にどう影響するかを経験的に分析しています。
- 全体として、プルーニングが常にTTSの推論性能を低下させるという従来の考えに挑戦しており、慎重に設計されたプルーニングがTTSの有効性を高め得ることを示唆しています。




