理論的な汎化保証を備えた混合専門家(Mixture-of-Experts)の効率的な量子化

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • スパースな混合専門家(MoE)モデルは、入力を少数の専門家にルーティングすることで効率を高めるが、それでも大規模な総パラメータ数による推論時のメモリ負荷という主要な課題に直面している。

Abstract

Sparse Mixture-of-Experts(MoE)は、入力ごとに少数のエキスパートのみを起動することで、言語モデルおよび視覚モデルを効率よくスケールすることを可能にします。これは計算量を削減する一方で、大量のパラメータが推論時のメモリオーバーヘッドを依然として大きくしてしまいます。この問題に対処するために、ポストトレーニング量子化が検討されてきました。均一量子化は低ビット幅において大幅な精度低下を招くため、近年、混合精度法が探究されてきています。しかしそれらはしばしばビット幅割り当てのために相当な計算を要し、さらに、異なるエキスパートの量子化に対するモデル性能の感度の違いを見落としています。本研究では、訓練中のルータのl2ノルムの変化に主として基づいて各エキスパートにビット幅を割り当てる、理論的に裏付けられたエキスパートごとの混合精度戦略を提案します。変化が小さいエキスパートは、頻度は低いものの重要な特徴を捉えることが示され、これらのエキスパートの量子化に対してモデル性能はより敏感であるため、より高い精度が必要となります。さらに、高い量子化ノイズを注入するような低精度にエキスパートを割り当てないために、ニューロン内の最大分散(intra-neuron variance)が大きいエキスパートには、併せてより高い精度を割り当てます。Switch TransformerやMixtralを含む大規模MoEモデルに対する実験の結果、提案手法は既存の手法よりも高い精度を達成し、同時に推論コストを削減しつつ、ビット幅割り当てに伴うオーバーヘッドはごくわずかであることが示されました。