MoBiE:ポストトレーニング量子化下での二値エキスパート混合(Mixture of Binary Experts)の効率的推論

arXiv cs.LG / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、量子化の下でMixture-of-Experts(MoE)LLM推論をより効率化するための、ポストトレーニング二値化フレームワークであるMoBiEを提案する。密なモデル向けの従来の二値化手法が見落としていた、MoE固有の問題に取り組む点が特徴である。
  • MoBiEは、3つの技術を組み合わせる。すなわち、エキスパート間の冗長性を減らすためのジョイントSVD分解、重みの重要度推定をより適切にするためのグローバル損失勾配強化ハッセ行列指標、そして量子化によって生じるルーティングの歪みを抑えるための入力ヌル空間に基づく誤差制約である。
  • 本手法は、ストレージオーバーヘッドを増やすことなく、極めて高い効率を目標とし、モデル品質を維持しつつ推論特性を改善することを狙う。
  • 実験では、複数のMoEベースLLMにおいて大きな改善が示される。例えばQwen3-30B-A3Bでは、MoBiEにより困惑度(perplexity)が52.2%低下したほか、平均ゼロショット性能が43.4%向上し、2倍超の推論速度向上とともに、より高速な量子化も実現したと報告されている。
  • 著者らはオープンソース実装を提供しており、量子化されたMoE推論を評価・導入したい研究者や実務者が、直接検証して利用できるようになっている。

Abstract

Mixture-of-Experts(MoE)に基づく大規模言語モデル(LLM)は強力な性能を発揮しますが、高いメモリ使用量と計算コストに悩まされています。重みのバイナリ化は極めて高い効率性を提供しますが、密なLLM向けに設計された既存のバイナリ手法は、エキスパート間の冗長性、タスク非依存の重要度推定、量子化に起因するルーティングの変化といった、MoE特有の問題に苦戦しています。そこで本研究では、MoEベースLLM向けに最適化された初めてのバイナリ化フレームワークであるMoBiEを提案します。MoBiEは、3つの主要な革新に基づいて構築されています。1. エキスパート間の冗長性を低減するために、結合SVD分解を用いること。2. 重みの重要度推定を強化するために、局所ヘッセ距離(ローカルのヘッセ指標)へグローバルな損失勾配を統合すること。3. 入力のヌル空間に導かれた誤差制約を導入し、ルーティングの歪みを緩和すること。特筆すべき点として、MoBiEはこれらの最適化を行いながら追加のストレージオーバーヘッドを一切発生させず、効率とモデル性能の両立を実現します。大規模な実験により、MoBiEは複数のMoEベースLLMおよびベンチマークにおいて、最先端のバイナリ手法を一貫して上回ることが示されます。たとえば、Qwen3-30B-A3Bでは、MoBiEはパープレキシティを52.2\%低減し、平均的なゼロショット性能を43.4\%向上させ、2倍超の推論速度向上を達成し、さらに量子化時間も短縮します。コードは https://github.com/Kishon-zzx/MoBiE で公開されています。