概要: Token-choice Mixture-of-Experts (TC-MoE) は、各トークンを固定数のエキスパートへ割り当て、動的計算割り当てを制限し、ロードバランスを維持するための補助損失を必要とします。我々は Expert Threshold (ET) ルーティングを提案します。ここでは各エキスパートがグローバルなトークン分布から推定された指数移動平均(EMA)閾値を維持します。訓練時・推論時のいずれにおいても、各トークンはそのスコアがエキスパートの閾値を超えた場合に独立してエキスパートへ割り当てられ、補助損失を用いずに動的な計算割り当てとロードバランスを実現します。この完全な因果機構はバッチ内の他のトークンへの依存を排除し、自己回帰言語モデリングに適しています。FineWeb-Edu 上で 2.4B パラメータへスケールした事前学習実験では、ET は TC-MoE より 0.067 クロスエントロピーを低く抑え、同等の性能をトークン数を約1.6分の1に削減して達成します。
動的計算割り当てとロードバランシングを備えた自己回帰言語モデリングのエキスパート閾値ルーティング
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論は、自己回帰言語モデルにおけるトークン選択型Mixture-of-Experts(TC-MoE)に対するエキスパート閾値(ET)ルーティングを提案し、補助的なロードバランス損失を用いずに動的な計算割り当てを可能にします。
- 各エキスパートは、グローバルなトークン分布から推定された指数移動平均(EMA)閾値を維持し、トークンのスコアが閾値を超えた場合にそのエキスパートへ割り当てられます。
- このルーティングは完全に因果的かつトークン単位であり、バッチ内の他のトークンへの依存を必要とせず、訓練時と推論時の双方で機能します。
- FineWeb-Edu 上の 2.4B パラメータモデルの事前学習実験では、ET は TC-MoE よりクロスエントロピーを 0.067低く、同等の性能を約1.6分の1 のトークン数で達成します。

