多言語MoEモデルにおける言語ルーティング分離の解明:解釈可能なサブネットワーク適応のために
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、モデル内部のエキスパートのルーティング挙動を分析することで、多言語Mixture-of-Experts(MoE)モデルで言語間に性能のばらつきが生じる理由を探究する。
- 高資源言語と低資源言語が、概ね重複の少ない(大きく分離した)エキスパート集合を活性化しやすい新たなパターン「Language Routing Isolation(言語ルーティング分離)」を見出す。
- 層ごとの分析により、深さ方向にわたって収束—発散型のルーティング構造が見られ、浅い層から深い層へとルーティングのダイナミクスが体系的に変化することが示唆される。
- 著者らは、特異性スコアと重複(オーバーラップ)スコアを用いて、言語固有および汎用のエキスパート・サブネットワークを選択する手法としてRISE(Routing Isolation-guided Subnetwork Enhancement)を提案する。
- 選択したサブネットワークのみを学習し、残りを凍結することで、RISEは10言語にわたり低資源言語のF1を最大10.85%改善しつつ、他の言語への悪影響は最小限に抑える。




