SliderQuant:LLMに対する正確なポストトレーニング量子化

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文ではLLMに対するポストトレーニング量子化(PTQ)を検討し、量子化に対する層ごとの感度が不均一であり、一般に中間層よりも浅い層/深い層のほうが感度が高いことを明らかにする。
  • さらに、最も感度の高い層はしばしば最初/最後の層であり、他の浅い/深い層に比べて量子化誤差が大幅に大きくなることを観察する。
  • これらの知見に動機づけられ、著者らは、層ごとの感度により適合させるために、少数の学習可能パラメータを用いた適応的な「スライディング層」および「スライディングウィンドウ」量子化を行う新しいPTQフレームワークとしてSliderQuantを提案する。
  • SliderQuantは、層間でのスライディング量子化(浅い/中間/深い層向けのウィンドウ設計)と、層内でのスライディング量子化(各ウィンドウ内での段階的な量子化)を組み合わせることで、層間にまたがる誤差を低減する。
  • 複数のモデルファミリとタスク(生成、ゼロショット推論、数学/コード)にわたる実験により、SliderQuantは、重みのみ量子化および重み・活性量子化の両方において、既存のPTQ手法、さらには回転ベースの近年の手法よりも改善することが示される。

Abstract

本論文では、大規模言語モデル(LLM)に対する事後学習量子化(PTQ)を、見落とされがちな観点から扱います。すなわち、事前学習済みの高精度LLMが与えられた場合、従来の支配的な逐次量子化フレームワークは異なる層を等しく扱いますが、これはビット幅が厳しい状況では最適でない可能性があります。そこで本研究では、異なる層がモデル精度に与える量子化の影響を実験的に調査し、次のことを観察します:(1) 浅い層/深い層は、中間層よりも一般に量子化に対して敏感です;(2) 浅い層/深い層の間では、最も敏感なものが最初の層/最後の層であり、他の層よりも量子化誤差が著しく大きいことが示されます。これらの実験的観察は、LLMの異なる層に対する量子化設計が、すべての層で共有する単一のレベルではなく、複数のレベルにわたって必要であることを示唆しています。そこで着想を得て、少数の学習可能パラメータによって支えられるシンプルな適応型スライディング量子化の概念に依拠した、新しいPTQフレームワーク「Sliding-layer Quantization(SliderQuant)」を提案します。SliderQuantの基礎となる構成要素は、inter-layer sliding quantization(層間スライディング量子化)と呼ばれるもので、浅い層・中間層・深い層それぞれの量子化感度の違いに対処するために調整された、3種類の新しいスライディングウィンドウ設計を組み込みます。もう一つの構成要素は、各ウィンドウを逐次的に量子化するための増分戦略を活用する intra-layer sliding quantization(層内スライディング量子化)です。その結果、SliderQuantは層間にわたって量子化誤差を低減する強い能力を備えています。Llama/Llama2/Llama3/Qwen2.5 といったモデルファミリー、蒸留済みの DeepSeek-R1 モデル、大規模MoEモデルを含む、さまざまなLLMに対して、基礎的な言語生成、ゼロショット常識推論、そして難度の高い数学・コード課題に関する大規模な実験を行ったところ、本手法は、重量のみ量子化および重量−活性量子化の両方において、既存のPTQ手法(回転変換を用いた最新のPTQ手法を含む)よりも優れていることが示されました。