EdgeRazor:混合精度の量子化対応蒸留による、大規模言語モデル向け軽量フレームワーク

arXiv cs.AI / 2026/5/7

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文では、混合精度および極低ビットの量子化対応蒸留によって、リソース制約のあるデバイスで大規模言語モデルを動かすことを目的とした軽量フレームワーク「EdgeRazor」を提案する。
  • EdgeRazorは、混合精度の量子化対応蒸留、16ビットの教師からnビットの学生へ写像する適応的特徴蒸留、そして教師の出力分布のみで順方向・逆方向のバランスを決めるエントロピー対応KLダイバージェンスの3モジュールで構成される。
  • 既存手法(4ビット未満で性能が大きく落ちるPTQ、計算コストが高いQAT、手動の特徴選択や教師データ依存が課題となる蒸留ベース手法)に対し、精度劣化と実運用負担の両方を抑える狙いが示される。
  • 実験では、ベース/指示チューニング/マルチモーダルの各種LLMにおいて、EdgeRazorの1.88ビットが3ビット精度の候補群を上回り、特に主要な2ビットPTQより11.3ポイント良好で、学習予算もQATの先行手法に比べ4〜10倍少ないと報告される。
  • 圧縮率と推論速度の面でも改善が示され、例えば1.58ビットのQwen3-0.6Bは保存容量を1.41GBから0.28GBへ削減し、16ビット基準に対してデコードを15.1倍高速化するとされる。

要旨: 近年、計算資源の限られたデバイス上でLLMを運用することへの関心が高まっており、その中で量子化は、フル精度のモデル重みと活性を低ビット形式へ変換する有望な軽量化手法として注目されています。既存の重み量子化アプローチは、おおまかに3つのカテゴリに分類できます。すなわち、事前学習後量子化(Post-Training Quantization: PTQ)は、小規模データセットで量子化済みパラメータをキャリブレーションすることで再学習なしに行える一方、4ビット未満では深刻な性能劣化を招きます。次に、量子化認識学習(Quantization-Aware Training: QAT)は、サロゲート勾配を用いて低ビットのパラメータを探索しますが、大きな計算資源を必要とします。そして、量子化認識蒸留(Quantization-Aware Distillation)は、QATとフル精度の教師からの知識移転を統合しますが、蒸留すべき特徴を手作業で選択する必要があり、さらに教師固有のデータに強く依存します。本論文では、混合精度と極めて低ビットの重み量子化を備えたLLM向けの軽量フレームワークであるEdgeRazorを提案します。EdgeRazorフレームワークは3つのモジュールから構成されます。精度のきめ細かな制御のための混合精度量子化認識蒸留(Mixed-Precision Quantization-Aware Distillation)、16ビットの教師からn-bitの学生を導出する適応的特徴蒸留(Adaptive Feature Distillation)、および、人手で注釈されたデータセットと蒸留データセットの両方に対して、教師の出力分布のみによって順逆の釣り合いが決まる、エントロピーを考慮したKLダイバージェンス(Entropy-Aware KL Divergence)です。EdgeRazorの実証的検討は、基盤モデル、指示チューニング済み、そしてマルチモーダルLLMに対して行います。とりわけ、EdgeRazorの1.88ビットは、3ビット精度の全手法を上回り、特に主要な2ビットPTQ手法に対しては11.3ポイント上回ります。さらに、主要なQAT手法と比べて、学習予算を4〜10 imes削減した範囲で達成しています。EdgeRazorは、全ビット幅においてより高い圧縮率を提供します。1.58ビットのQwen3-0.6Bは、保存容量を1.41 GBから0.28 GBへ削減し、16ビットのベースラインに対してデコーディングを15.1 imes高速化します。