多言語MoEモデルにおける言語ルーティング分離の解明：解釈可能なサブネットワーク適応のために

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モデル内部のエキスパートのルーティング挙動を分析することで、多言語Mixture-of-Experts（MoE）モデルで言語間に性能のばらつきが生じる理由を探究する。
高資源言語と低資源言語が、概ね重複の少ない（大きく分離した）エキスパート集合を活性化しやすい新たなパターン「Language Routing Isolation（言語ルーティング分離）」を見出す。
層ごとの分析により、深さ方向にわたって収束—発散型のルーティング構造が見られ、浅い層から深い層へとルーティングのダイナミクスが体系的に変化することが示唆される。
著者らは、特異性スコアと重複（オーバーラップ）スコアを用いて、言語固有および汎用のエキスパート・サブネットワークを選択する手法としてRISE（Routing Isolation-guided Subnetwork Enhancement）を提案する。
選択したサブネットワークのみを学習し、残りを凍結することで、RISEは10言語にわたり低資源言語のF1を最大10.85%改善しつつ、他の言語への悪影響は最小限に抑える。

日経XTECH

日経XTECH

Dev.to

Reddit r/LocalLLaMA

Dev.to