要旨: 混合専門家(Mixture-of-Experts, MoE)アーキテクチャは、予測タスクを、ゲーティング機構によって選択される専門家サブネットワーク群へと分解する。 本書簡では、MoEゲーティングを通信理論的な観点から捉え、有限の情報レートの下で動作する確率的チャネルとしてゲートをモデル化する。 情報理論的学習の枠組みにおいて、{我々は相互情報の一般化に関する上界を特化し、有限レートのゲーティングに対するレート歪みの特性 D(R_g) を導出する。ここで R_g:=I(X; T) であり、標準的な経験的レート歪み最適性条件の下では が成り立つ。 }この解析により、通信制約のあるMoEシステムに対する容量を意識した限界が得られ、合成の複数専門家モデルに対する数値シミュレーションにより、ゲーティングレート、表現力、一般化の間に存在する予測されたトレードオフが実験的に裏付けられる。
\mathbb{E}[R(W)] \le D(R_g)+\delta_m+\sqrt{(2/m)\, I(S; W)}
有限レート・ゲーティング下のMixture-of-Experts:通信—汎化のトレードオフ
arXiv stat.ML / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Mixture-of-Experts(MoE)のゲーティングに関して、ゲートを有限の情報レートに制約された確率的チャネルとして扱うことで、通信理論的観点から考察する。
- 相互情報量を用いて特殊化した情報理論的な汎化境界を導出し、有限レートのゲーティングに対するレート—歪みの特性 D(R_g) を、R_g = I(X;T) として定式化する。
- 実データに基づくレート—歪みの最適性の仮定のもとで、著者らは期待される汎化誤差を、歪み項 D(R_g) に加えて、追加の複雑性およびサンプルサイズに関する項と結び付ける。
- 本結果は、通信制約のあるMoEシステムに対して、容量を意識した限界を与え、ゲーティング・レート、モデルの表現力、そして汎化性能の間のトレードオフを明示的に定量化する。
- 複数エキスパート・モデルを用いた合成実験により、ゲーティング・レートと汎化の間に予測される関係が経験的に検証される。
広告




