SliderQuant:LLMに対する正確なポストトレーニング量子化
arXiv cs.AI / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文ではLLMに対するポストトレーニング量子化(PTQ)を検討し、量子化に対する層ごとの感度が不均一であり、一般に中間層よりも浅い層/深い層のほうが感度が高いことを明らかにする。
- さらに、最も感度の高い層はしばしば最初/最後の層であり、他の浅い/深い層に比べて量子化誤差が大幅に大きくなることを観察する。
- これらの知見に動機づけられ、著者らは、層ごとの感度により適合させるために、少数の学習可能パラメータを用いた適応的な「スライディング層」および「スライディングウィンドウ」量子化を行う新しいPTQフレームワークとしてSliderQuantを提案する。
- SliderQuantは、層間でのスライディング量子化(浅い/中間/深い層向けのウィンドウ設計)と、層内でのスライディング量子化(各ウィンドウ内での段階的な量子化)を組み合わせることで、層間にまたがる誤差を低減する。
- 複数のモデルファミリとタスク(生成、ゼロショット推論、数学/コード)にわたる実験により、SliderQuantは、重みのみ量子化および重み・活性量子化の両方において、既存のPTQ手法、さらには回転ベースの近年の手法よりも改善することが示される。



