要旨: リソースが限られた環境で大規模言語モデル(LLM)を展開することは、重い計算量とメモリ要件によって妨げられます。私たちはLBLLMという軽量な二値化フレームワークを提示します。このフレームワークは、新しい3段階の量子化戦略により、有効な W(1+1)A4 量子化を実現します。フレームワークは次の手順で進みます。(1)PTQによって高品質な量子化モデルを初期化する;(2)活性はフル精度のまま維持しつつ、層ごとの蒸留により二値化された重み、グループごとのビットマップ、量子化パラメータを量子化する;(3)学習可能な活性量子化係数を訓練し、活性を4ビットへ動的に量子化する。分離された設計により、重みの量子化と活性の量子化の干渉が緩和され、学習の安定性が向上し、推論精度もより良くなります。単一GPUで 0.016B トークンのみを用いて訓練したLBLLMは、言語モデリング、常識QA、言語理解というタスク群にわたる W2A4 量子化設定で、既存の最先端の二値化手法を上回ります。これらの結果は、最近のPTQベースの研究で一般的に用いられる追加の高精度チャネルや回転行列を一切導入することなく、LLMの極端な低ビット量子化が実用的であり、かつ非常に有効であることを示しています。これは、リソースが限られた状況における効率的なLLM展開への有望な道筋を提供します。
LBLLM:3段階蒸留による大規模言語モデルの軽量バイナリ化
arXiv cs.LG / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- LBLLMは、リソース制約のある環境でも大規模言語モデルを実運用可能にするために、モデル規模と計算負荷を大きく削減するバイナリ化/量子化フレームワークです。
- 3段階の戦略を採用しており、(1) PTQで高品質な量子化モデルを初期化し、(2) 活性はフル精度のままにしつつ層ごとの蒸留でバイナリ化重みやビットマップ、量子化パラメータを学習し、(3) 活性の量子化因子を学習して4ビットへ動的に量子化します。
- 重みの量子化と活性の量子化を明確に切り分けることで両者の干渉を抑え、学習の安定性と推論精度を高めています。
- 著者らは0.016Bトークンのみを単一GPUで学習した結果、言語モデリング、常識QA、言語理解といった複数タスクでW2A4設定における既存のバイナリ化手法を上回る性能を報告しています。
- 追加の高精度チャネルや、近年のPTQ系研究で使われる回転行列のような要素を導入せずに、極低ビット量子化を実現することを目指しています。



