量子化に対するKLレンズ:混合精度SSM-Transformerモデル向けの高速・順伝播のみの感度(サンビティビティ)
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、混合精度/量子化を用いて精度低下を抑えつつ、エッジデバイスへLLMライクなハイブリッドSSM-Transformerモデルを展開することを目的としている。特に、各コンポーネントに対して量子化効果が不均一に生じることによる精度劣化を軽減する。
- 後ろ向きの伝播(backpropagation)を行わない、軽量なサロゲート(代理)ベースの感度分析手法を提案する。この手法は順伝播の計測値のみを用いて、量子化による劣化に最も脆弱なコンポーネントを優先順位付け(ランキング)する。
- 著者らは、KLダイバージェンス(Kullback–Leibler divergence)が、MSEやSQNRといった一般的な代替指標よりも、言語モデリングにおける量子化感度の指標として優れていると主張し、形式的に分析する。
- 大規模な実験およびアブレーション研究により、KLベースのコンポーネントランキングが観測された性能低下と相関し、他の指標よりも優れていることが示される。これにより、より信頼性の高い混合精度の判断が可能になる。
- 本手法は、Intel Lunar Lakeハードウェアでの実環境でのオンデバイス・プロファイリングにより検証される。KLに導かれた混合精度は、Uniform INT4と競合する水準のスループットおよびモデルサイズのトレードオフを保ちつつ、FP16に近いパープレキシティを達成する。




