Abstract
Mixture-of-Experts(MoE)に基づく大規模言語モデル(LLM)は強力な性能を発揮しますが、高いメモリ使用量と計算コストに悩まされています。重みのバイナリ化は極めて高い効率性を提供しますが、密なLLM向けに設計された既存のバイナリ手法は、エキスパート間の冗長性、タスク非依存の重要度推定、量子化に起因するルーティングの変化といった、MoE特有の問題に苦戦しています。そこで本研究では、MoEベースLLM向けに最適化された初めてのバイナリ化フレームワークであるMoBiEを提案します。MoBiEは、3つの主要な革新に基づいて構築されています。1. エキスパート間の冗長性を低減するために、結合SVD分解を用いること。2. 重みの重要度推定を強化するために、局所ヘッセ距離(ローカルのヘッセ指標)へグローバルな損失勾配を統合すること。3. 入力のヌル空間に導かれた誤差制約を導入し、ルーティングの歪みを緩和すること。特筆すべき点として、MoBiEはこれらの最適化を行いながら追加のストレージオーバーヘッドを一切発生させず、効率とモデル性能の両立を実現します。大規模な実験により、MoBiEは複数のMoEベースLLMおよびベンチマークにおいて、最先端のバイナリ手法を一貫して上回ることが示されます。たとえば、Qwen3-30B-A3Bでは、MoBiEはパープレキシティを52.2\%低減し、平均的なゼロショット性能を43.4\%向上させ、2倍超の推論速度向上を達成し、さらに量子化時間も短縮します。コードは https://github.com/Kishon-zzx/MoBiE で公開されています。