多言語MoEモデルにおける言語ルーティング分離の解明:解釈可能なサブネットワーク適応のために

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モデル内部のエキスパートのルーティング挙動を分析することで、多言語Mixture-of-Experts(MoE)モデルで言語間に性能のばらつきが生じる理由を探究する。
  • 高資源言語と低資源言語が、概ね重複の少ない(大きく分離した)エキスパート集合を活性化しやすい新たなパターン「Language Routing Isolation(言語ルーティング分離)」を見出す。
  • 層ごとの分析により、深さ方向にわたって収束—発散型のルーティング構造が見られ、浅い層から深い層へとルーティングのダイナミクスが体系的に変化することが示唆される。
  • 著者らは、特異性スコアと重複(オーバーラップ)スコアを用いて、言語固有および汎用のエキスパート・サブネットワークを選択する手法としてRISE(Routing Isolation-guided Subnetwork Enhancement)を提案する。
  • 選択したサブネットワークのみを学習し、残りを凍結することで、RISEは10言語にわたり低資源言語のF1を最大10.85%改善しつつ、他の言語への悪影響は最小限に抑える。