GlowQ:量子化LLM向けのグループ共有型低ランク近似
arXiv cs.LG / 2026/3/27
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、BitsAndBytes、AWQ、GPTQ のような標準的な量子化手法が低ビット幅(例:4ビット)では性能を低下させ得ることに対処するため、量子化LLMの精度を改善するためのグループ共有型低ランク補正手法「GlowQ」を提案する。
- 先行する低ランク補正アプローチが、各デコーダブロックに対して復元用または誤り補正用モジュールを追加するのに対し、GlowQは入力共有グループごとに1つの共有された右側因子をキャッシュし、精度向上が最も大きいグループ/層のみを選択的に復元する。
- GlowQは、入力共有グループごとに高精度な高コストの射影を1度だけ計算し、複数のモジュール間でそれを再利用することで、パラメータ/メモリのオーバーヘッドを削減しつつ、層ごとの表現力を維持することを狙う。
- 選択的バリアントである GlowQ-S は、最も効果の高い箇所にのみキャッシュした共有モジュールを適用し、より大きな性能向上を実現しながら、下流の精度をほぼ変えずに保つ。
- 報告されている結果では、GlowQは平均でTTFBを5.6%低減し、スループットを9.6%向上させる。さらにGlowQ-SはTTFBを23.4%低減し、スループットを37.4%向上させる一方で、精度損失は最小限に抑えられており(平均で約0.2ポイント以内)、ほとんど影響がない。



