RAMP: 強化学習に基づく適応的混合精度量子化による効率的なオンデバイスLLM推論

arXiv cs.LG / 2026/3/19

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

RAMPは、グローバルビット予算の下でパープレキシティを最小化するために層ごとに混合精度量子化を行う、強化学習ベースの手法であり、オンデバイスLLM推論を効率化します。
ポリシーは、活性化統計、ウェイト特性、構造記述子の11次元埋め込みを条件付けとして用い、モデルファミリーとスケールを横断するゼロショット転移を可能にします。
Scale Foldingは、活性化の外れ値をチャネルごとのスケーリングと正規化層の補償を介してウェイトへ移す前処理技術であり、サブ4ビット量子化を安定させます。
Llama 2 7Bでは、3.68GB（3.65有効ビット）で5.54パープレキシティを達成し、均一4ビットAWQおよびGPTQを上回ります。さらに、このポリシーはLlama 2 13BおよびMistral 7Bへゼロショット転移で一般化し、HALOパイプラインはCPU・GPU・エッジデバイス上でカーネルなし推論のためにGGUFへ割り当てをエクスポートします。FP16性能の99.5%を維持します。

要約: 事後トレーニング量子化は、リソース制約のあるハードウェア上で大規模言語モデル（LLMs）を展開するために不可欠ですが、最先端の手法は層間で一様なビット幅を強制し、最適でない精度・効率のトレードオフを生み出します。我々は RAMP（強化学習適応混合精度）を提示します。これはグローバルなビット予算の下でパープレキシティを最小化するように層ごとのビット幅割り当てを学習するオフポリシーの Soft Actor-Critic フレームワークです。ポリシーは活性化統計、重み特性、構造記述子の11次元埋め込みに基づいて条件付けられ、モデルファミリやスケールを横断するゼロショット転送を可能にします。安定した4ビット未満の量子化を実現するため、Scale Folding を導入します。これはチャネルごとのスケーリングと正規化層の補償を通じて活性化の外れ値を重みに移行させる前処理技術です。品質を重視した報酬と非対称ペナルティ、予算の崖が急速な収束を促します。Llama 2 7B では、RAMP は 3.68GB で 5.54 のパープレキシティを達成（3.65 有効ビット）、一様な 4 ビット AWQ（3.90GB で 5.60）および GPTQ より、サイズで 6%、品質で 1%〜3% の改善を達成します。重要なのは、Llama 2 7B のみで訓練されたポリシーがゼロショットで Llama 2 13B および Mistral 7B に一般化し、しばしばターゲット固有の訓練を上回ることがあり、量子化感度は主に構造（アーキテクチャ）に起因するという仮説を支持する点です。HALO パイプラインは、CPU・GPU・エッジデバイス上での kernel-free 推論のために割り当てを GGUF 形式へエクスポートし、FP16 の常識的推論性能の 99.5% を保持します。