Self-Routing：隠れ状態からのパラメータ不要なエキスパートルーティング

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「Self-Routing」を提案している。これは、指定した隠れ状態サブスペースを直接エキスパートのロジットへ変換する、パラメータ不要のMixture-of-Experts（MoE）ルーティング手法であり、学習されたルータ用の射影モジュールを不要にする。
GPT-2スケールの言語モデリングに関する実験では、Self-Routingは標準的な学習ルータのベースラインと競争力のある性能を示しながら、ルーティング専用のパラメータをすべて排除している。
Self-Routingはエキスパートの利用バランスを改善し、平均の正規化ルーティングエントロピーで約17%の向上を達成する一方で、明示的な負荷分散ロスは用いない。
ImageNet-1K上でDeiT-S/16を用いた場合、Self-Routingは対応する学習ルータMoEをわずかに上回り、このアプローチが言語モデルの外でも一般化できることを示唆している。
著者らは、効果的なMoEルーティングはモデル自身の隠れ表現から導出できると結論づけており、専用の学習ルータが厳密に必要だという前提に挑戦している。

要旨: Mixture-of-Experts（MoE）層は、トークンごとに専門家（expert）のごく一部だけを有効化することでモデルの容量を増やし、一般に学習されたルータが隠れ状態（hidden states）を専門家の割り当てへ写像することに依存しています。本研究では、私たちが対象とするMoE設定において、専用の学習ルータが厳密に必要なのかどうかを問いかけます。私たちはSelf-Routing（自己ルーティング）を提案します。これはパラメータ不要のルーティング機構で、トークンの隠れ状態の指定された部分空間（subspace）をそのまま専門家のロジットとして用います。これにより、ルータの射影（projection）を完全に排除しつつ、MoE層の残りは変更せずに維持します。私たちは、GPT-2規模の言語モデリングおよびImageNet-1K分類において、標準的な学習ルータと比較し、ランダムルーティングのベースライン、ならびにMoEではない密（dense）のベースラインとも比較することで、Self-Routingを評価します。その結果、Self-Routingは、学習ルータのベースラインと同等に競争力がある一方で、専用のルーティングパラメータをすべて除去でき、専門家の利用がよりバランスよくなっていることが示されました。具体的には、平均の正規化ルーティングエントロピーが約17%高く、明示的な負荷分散（load-balancing）損失はありません。DeiT-S/16を用いたImageNet-1Kにおいても、Self-Routingは対応する学習ルータMoEよりわずかに改善します。これらの知見は、別個の学習ルータモジュールを必要とせずとも、MoEの効果的なルーティングが隠れ表現そのものから生じ得ることを示唆しています。