ポリセマンティック・エキスパート、モノセマンティックな経路:MoEにおけるルーティングを制御として捉える

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、Mixture-of-Experts(MoE)モデルに対し、各層の表現をルーティング用の制御信号と、ルータから見えない直交するコンテンツ・チャネルに分けるパラメータ不要の分解手法を提案しています。
  • 6つのMoEアーキテクチャでの実験では、コンテンツ・チャネルが言語、トークンの同一性、位置などの表面的な性質を保持する一方、制御信号が層ごとに変化する抽象的な機能を捉えることが示されます。
  • ルーティング判断が低帯域であるため、この仕組みは合成的な専門化を促し、個々のエキスパートがポリセマンティックであっても「エキスパートの経路」は実質的にモノセマンティックになります。
  • 同一のトークン(例:「:」)でも、型注釈のコロンなのか導入の句読点なのか時刻区切りなのかで異なる経路をたどり、モノセマンティック性は全表現よりも制御サブスペース内で強く現れることが分かります。
  • 著者らは、MoEの解釈可能性におけるより自然な単位はエキスパートそのものではなく「トークンの経路(層をまたぐルーティング)」であると結論づけています。