少ないものでより多く:テスト時スケーリングに対するLLMプルーニングの有効性を再検証する

arXiv cs.LG / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、テスト時スケーリング(TTS)による推論性能が構造化プルーニングで大きく損なわれるという先行主張を再検証します。
  • 推論特化LLMの2モデル(s1.1-7B と Qwen3-8B)を4つのベンチマークで評価した結果、非構造化プルーニングは構造化プルーニングよりもTTS性能を一貫して改善することが示されます。
  • 場合によっては、適切に行われた非構造化プルーニングが、重みをそのまま維持した(非プルーンド)モデルを上回ることもあります。
  • さらに、非構造化プルーニングを成立させる重要な設計要素である層ごとの疎度配分戦略が、結果にどう影響するかを経験的に分析しています。
  • 全体として、プルーニングが常にTTSの推論性能を低下させるという従来の考えに挑戦しており、慎重に設計されたプルーニングがTTSの有効性を高め得ることを示唆しています。

Abstract

現在の大規模言語モデル(LLM)は、推論時計算スケーリング(TTS)によって目覚ましい推論能力を示していますが、巨大なパラメータ数と高い推論コストが、性能を損なうことなくモデルサイズを削減するためのプルーニング手法の開発を後押ししてきました。とはいえ、推論LLMに特化して言えば、先行研究では、構造化プルーニング(層ブロックの全セットを削除する手法)がTTSの推論性能を大きく低下させることが示されています。本研究では、この前提を改めて見直し、代わりに非構造化プルーニング(冗長/有害な重みの一部のみを慎重に除去する手法)でも同様の制約が生じるかどうかを検討します。驚くべきことに、2つの推論LLM(s1.1-7BおよびQwen3-8B)に対して、4つの推論ベンチマークにわたる大規模な実験を行った結果、非構造化プルーニングは構造化プルーニングと比べて一貫してTTS性能を向上させ、場合によっては、プルーニングを行わないフルウェイトのLLMを上回ることさえあります。さらに、非構造化プルーニング手法を具体化するための重要なパラメトリックな選択である、層ごとの疎性(sparsity)配分戦略の違いが与える影響についても、経験的に調査します。これらの知見は、「プルーニングは常にTTS性能を低下させる」という従来の考え方に疑問を投げかけ、実際には、慎重に実施されたプルーニングがTTSの有効性をさらに高め得ることを示唆しています。