剪定(プルーニング)の限界を探る:タスク専用ニューロン、モデル崩壊、タスク専用大規模言語モデルにおける回復

arXiv cs.CL / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本研究は、数学推論やコード生成に特化したタスク専用LLMにおけるニューロン剪定が、タスク性能へ全ニューロンが均一に寄与しているかどうかを検証する。
  • 低寄与のニューロンを特定するために活性に基づく選択性(selectivity)指標を提案し、その手法による剪定がランダム剪定よりも一貫してターゲットタスク精度の維持に優れることを示す。
  • 逆剪定の実験では、約10%の「特にタスクに固有な」ニューロンを除去するだけで性能が完全に崩壊し得ることが分かり、重要なタスク情報がネットワークのごく一部に集中している可能性を示唆する。
  • 1.5Bおよび7Bモデルでは、剪定率15–20%付近に頑健性の閾値があり、これを超えると精度低下や生成失敗が急増する。
  • 剪定後のファインチューニングにより性能は大きく回復し、とりわけ強く剪定したモデルほど回復が顕著である一方、剪定はパラメータ数やVRAM使用量を削減し、推論スループットを改善する。

Abstract

ニューロンの剪定(pruning)は、大規模言語モデルの計算コストとパラメータのフットプリントを削減するために広く用いられていますが、タスク特化モデルのニューロンがタスク性能に一様に寄与しているのかどうかは、依然として明らかではありません。本研究では、数学的推論とコード生成に特化した言語モデルに対する体系的な剪定(pruning)調査を通じて、タスク特化ニューロンの存在と重要性を実証的に示します。対象タスクへの寄与が低いニューロンを特定するための、活性(activation)に基づく選択性(selectivity)指標を導入し、対象タスクの精度を維持しながらそれらを剪定します。そして、選択的剪定とランダム剪定を比較します。選択的剪定は一貫してランダム剪定を上回り、活性ベースの選択性がランダム剪定に対して体系的な優位性を提供することを示しています。さらに、逆剪定(reverse pruning)の実験では、高いタスク特化性を持つニューロンの小さな部分集合(約10%)を除去するだけで性能が完全に崩壊することが分かり、タスク特化ニューロンが存在し、重要なタスク情報はネットワークのごく一部に集中していることを示唆します。一方で、重要度の低いニューロンを選択的に剪定(約30%〜約35%)すると精度は低下するものの、依然として大きな性能は維持されます。剪定が増えるにつれて、パラメータ数および実行時VRAM使用量が一貫して減少することも観測され、推論スループットも向上しました。1.5Bモデルおよび7Bモデルの両方で、剪定率が約15〜20%の周辺に頑健性(robustness)の閾値があり、その閾値を超えると精度低下と生成失敗が急激に増えることが明らかになりました。微調整(fine-tuning)は、剪定レベル全体にわたって性能を大幅に回復させ、とりわけ強く剪定したモデルで顕著です。これらの発見は、タスク特化言語モデルにおけるニューロンの専門化(specialization)を実証的に裏付けるものであり、剪定の頑健性、モデル冗長性、および剪定後の回復可能性に関する洞察を提供します。