SoLA:ソフト活性化スパース性と低ランク分解を活用した大規模言語モデルの圧縮

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、「SoLA」と呼ばれる学習不要(training-free)のLLM圧縮手法を提案し、ソフト活性化スパース性を用いて推論にとって最も重要な成分のみを保持し、残りは低ランク分解で圧縮する。
  • SoLAは、現代のLLMにおけるフィードフォワードネットワーク(FFN)の活性化パターンの解析に基づいて設計されており、特別なハードウェアや高コストな事後学習(post-training)を必要とせずに構成要素の選択を可能にする。
  • 低ランクの切り詰めによる損失を低減するため、本手法は適応的なコンポーネント単位の低ランク配分戦略を適用し、各重み行列ごとに切り詰め位置を選択する。
  • LLaMA-2(7B/13B/70B)およびMistral-7Bに対する実験では、事後学習なしで精度向上が示されている。報告によれば、LLaMA-2-70Bで30%の圧縮を達成し、perplexityを6.95から4.44に改善、さらに下流タスクの精度が従来の最先端手法に対して10%向上した。
  • これらの結果は、SoLAが品質を維持しつつパラメータのフットプリントを縮小することで、大規模LLMの導入をより手頃で実用的にできることを示唆している。

概要: 大規模言語モデル(LLM)はさまざまなタスクにおいて印象的な能力を示してきましたが、数十億規模のパラメータは配備上の課題をもたらします。既存の手法はLLMの規模を縮小しようとしていますが、それらはモデル品質を維持するために、いずれか特別なハードウェアのサポート、または高価な事後学習を必要とします。効率的かつ低コストなモデルスリミングを促進するために、本研究では「SoLA」と名付けたLLM向けの、新規の学習不要(training-free)圧縮手法を提案します。SoLAは\textbf{So}ftな活性(activation)スパース性と\textbf{L}ow-r\textbf{A}nk分解を活用します。SoLAは、近年のLLMのフィードフォワードネットワーク(FFN)における活性パターンの分析に基づき、推論に大きく寄与する成分のうちの少数を特定して保持し、残りの大部分は低ランク分解によって圧縮することができます。分解に伴う損失を緩和するため、SoLAには適応的なコンポーネントごとの低ランク配分戦略が組み込まれており、異なる重み行列に対して適切な切り詰め位置(truncation position)を割り当てます。さまざまなベンチマークにわたって、LLaMA-2-7B/13B/70BおよびMistral-7Bモデルで大規模な実験を行いました。SoLAは、事後学習なしで言語モデリングと下流タスク精度の両方で顕著な改善を示します。たとえば、LLaMA-2-70Bモデルに対して30\%の圧縮率で、SoLAはパープレキシティを6.95から4.44へ低減し、下流タスク精度を10\%向上させることで、最先端手法を上回ります。