量子化に対するKLレンズ:混合精度SSM-Transformerモデル向けの高速・順伝播のみの感度(サンビティビティ)

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、混合精度/量子化を用いて精度低下を抑えつつ、エッジデバイスへLLMライクなハイブリッドSSM-Transformerモデルを展開することを目的としている。特に、各コンポーネントに対して量子化効果が不均一に生じることによる精度劣化を軽減する。
  • 後ろ向きの伝播(backpropagation)を行わない、軽量なサロゲート(代理)ベースの感度分析手法を提案する。この手法は順伝播の計測値のみを用いて、量子化による劣化に最も脆弱なコンポーネントを優先順位付け(ランキング)する。
  • 著者らは、KLダイバージェンス(Kullback–Leibler divergence)が、MSEやSQNRといった一般的な代替指標よりも、言語モデリングにおける量子化感度の指標として優れていると主張し、形式的に分析する。
  • 大規模な実験およびアブレーション研究により、KLベースのコンポーネントランキングが観測された性能低下と相関し、他の指標よりも優れていることが示される。これにより、より信頼性の高い混合精度の判断が可能になる。
  • 本手法は、Intel Lunar Lakeハードウェアでの実環境でのオンデバイス・プロファイリングにより検証される。KLに導かれた混合精度は、Uniform INT4と競合する水準のスループットおよびモデルサイズのトレードオフを保ちつつ、FP16に近いパープレキシティを達成する。

Abstract

大規模言語モデル(LLM)をエッジデバイス上で展開することは、計算およびメモリの厳しい制約に直面しており、リアルタイム処理やオンデバイス知能が制限されます。構造化状態空間モデル(SSM)とトランスフォーマー型LLMを組み合わせたハイブリッドアーキテクチャは、効率と性能のバランスを提供します。過度な量子化はモデルサイズを大幅に削減し推論を高速化できますが、異なる構成要素に対してその影響が不均一に現れるため、慎重な管理が必要です。本研究では、量子化による劣化に対して最も影響を受けやすいハイブリッドSSM-Transformerの構成要素を特定する、軽量でバックプロパゲーション不要な代理(サロゲート)ベースの感度解析フレームワークを提案します。順伝播のみの計測指標に依拠することで、高価な勾配計算や再学習を回避し、プロプライエタリな制限やプライバシー上の制約により、ドメイン内データへのアクセスが限られている状況にも適しています。また、言語モデリングタスクでは、平均二乗誤差(MSE)や信号対量子化雑音比(SQNR)といった広く採用されている代替指標よりも、クルバック・ライブラー(KL)ダイバージェンス指標の方が量子化感度をより的確に捉えることを示す形式的な分析も行います。SSMおよびハイブリッドアーキテクチャに関する大規模な実験を通じて、アブレーションスタディにより、KLベースのランキングが観測された性能低下と一致し、他の指標を上回ることを確認しました。このフレームワークにより、精度の損失を最小限に抑えつつ、リソース制約のあるエッジデバイス上で高度なハイブリッドモデルを実用的に展開できます。さらに、Intel Lunar Lakeハードウェア上での実世界のオンデバイス・プロファイリングにより、KLに導かれた混合精度が、CPUおよびGPUの両方の実行モードで、Uniform INT4と競合するモデルサイズとスループットを維持しながら、ほぼFP16のパープレキシティを達成することを検証します。コードは https://github.com/jasonkongie/kl-ssm-quant で公開されています。