理論的な汎化保証を備えた混合専門家（Mixture-of-Experts）の効率的な量子化

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

スパースな混合専門家（MoE）モデルは、入力を少数の専門家にルーティングすることで効率を高めるが、それでも大規模な総パラメータ数による推論時のメモリ負荷という主要な課題に直面している。

Abstract

Sparse Mixture-of-Experts（MoE）は、入力ごとに少数のエキスパートのみを起動することで、言語モデルおよび視覚モデルを効率よくスケールすることを可能にします。これは計算量を削減する一方で、大量のパラメータが推論時のメモリオーバーヘッドを依然として大きくしてしまいます。この問題に対処するために、ポストトレーニング量子化が検討されてきました。均一量子化は低ビット幅において大幅な精度低下を招くため、近年、混合精度法が探究されてきています。しかしそれらはしばしばビット幅割り当てのために相当な計算を要し、さらに、異なるエキスパートの量子化に対するモデル性能の感度の違いを見落としています。本研究では、訓練中のルータのl2ノルムの変化に主として基づいて各エキスパートにビット幅を割り当てる、理論的に裏付けられたエキスパートごとの混合精度戦略を提案します。変化が小さいエキスパートは、頻度は低いものの重要な特徴を捉えることが示され、これらのエキスパートの量子化に対してモデル性能はより敏感であるため、より高い精度が必要となります。さらに、高い量子化ノイズを注入するような低精度にエキスパートを割り当てないために、ニューロン内の最大分散（intra-neuron variance）が大きいエキスパートには、併せてより高い精度を割り当てます。Switch TransformerやMixtralを含む大規模MoEモデルに対する実験の結果、提案手法は既存の手法よりも高い精度を達成し、同時に推論コストを削減しつつ、ビット幅割り当てに伴うオーバーヘッドはごくわずかであることが示されました。

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

Reddit r/artificial

AI 2027の論文は、いまもなお正当性を持っているのか？

Reddit r/artificial

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

Dev.to

理論的な汎化保証を備えた混合専門家（Mixture-of-Experts）の効率的な量子化

要点

Abstract

関連記事

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

AI 2027の論文は、いまもなお正当性を持っているのか？

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer