有限レート・ゲーティング下のMixture-of-Experts：通信—汎化のトレードオフ

arXiv stat.ML / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Mixture-of-Experts（MoE）のゲーティングに関して、ゲートを有限の情報レートに制約された確率的チャネルとして扱うことで、通信理論的観点から考察する。
相互情報量を用いて特殊化した情報理論的な汎化境界を導出し、有限レートのゲーティングに対するレート—歪みの特性 D(R_g) を、R_g = I(X;T) として定式化する。
実データに基づくレート—歪みの最適性の仮定のもとで、著者らは期待される汎化誤差を、歪み項 D(R_g) に加えて、追加の複雑性およびサンプルサイズに関する項と結び付ける。
本結果は、通信制約のあるMoEシステムに対して、容量を意識した限界を与え、ゲーティング・レート、モデルの表現力、そして汎化性能の間のトレードオフを明示的に定量化する。
複数エキスパート・モデルを用いた合成実験により、ゲーティング・レートと汎化の間に予測される関係が経験的に検証される。

要旨: 混合専門家（Mixture-of-Experts, MoE）アーキテクチャは、予測タスクを、ゲーティング機構によって選択される専門家サブネットワーク群へと分解する。本書簡では、MoEゲーティングを通信理論的な観点から捉え、有限の情報レートの下で動作する確率的チャネルとしてゲートをモデル化する。情報理論的学習の枠組みにおいて、{我々は相互情報の一般化に関する上界を特化し、有限レートのゲーティングに対するレート歪みの特性 $D(R_g)$ を導出する。ここで $R_g:=I(X; T)$ であり、標準的な経験的レート歪み最適性条件の下では $\mathbb{E}[R(W)] \le D(R_g)+\delta_m+\sqrt{(2/m)\, I(S; W)}$ が成り立つ。 }この解析により、通信制約のあるMoEシステムに対する容量を意識した限界が得られ、合成の複数専門家モデルに対する数値シミュレーションにより、ゲーティングレート、表現力、一般化の間に存在する予測されたトレードオフが実験的に裏付けられる。