MoE（Mixture of Experts）における等目的性：ルーティングのトポロジーは言語モデル品質を決めない

arXiv cs.AI / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Mixture of Experts（MoE）のルーティング・トポロジー（学習されたルータ、マルチホップ、トークン依存ゲーティングなど）が言語モデリング品質に本当に影響するのかを検証し、低次元空間（d_space=64）でコサイン類似度に基づく幾何学的ルータ（ST-MoE）を用いています。
WikiText-103（76–84Mパラメータ）で収束まで学習した62の管理実験では、コサイン系ルーティングの5つのバリアントが漸近的なパープレキシティで1-PPL以内の範囲に収まり、最終品質はルーティング・トポロジーに左右されないことを示しています。
ハッシュ、ランダム固定、top-1 など別方式のルーティングでも同様の傾向が確認され、一部では穏やかな劣化にとどまり、OpenWebTextでも再現されています。
5.3倍のルーティング・パラメータを使う標準的なリニアルータと比べると、等パラメータ条件のコサイン・ルーティングはギャップの67%を回復し、全体としての「機構的優位性」は小さい（約1.2%）ことが示唆されます。
著者らは、ほぼトポロジーに依存しない理由を「収束的冗長性」として説明し、マルチホップ更新が主にコリニア（直線状）で、合成的推論というよりは大きさの増幅として働くと述べています。また、相対ノルムに基づくゼロショット停止によりMoE計算量FLOPsを25%削減しつつ、PPL増加は+0.12%に抑えられる実用的効果も示しています。

要旨: Sparse Mixture-of-Experts（MoE）アーキテクチャでは、ますます洗練されたルーティング機構――学習されたルータ、多ホップの軌跡、トークン依存のゲーティング――が用いられている。そこで問いを投げかける: ルーティングのトポロジーは実際に言語モデリングの品質を決定するのだろうか？我々は、低次元空間（ $d_{space} = 64$ ）における学習済みセントロイドに対してコサイン類似度ルーティングを行う幾何学的MoE（ST-MoE）を構築し、標準的な線形ルータと比べてルーティングパラメータを80%削減する。

WikiText-103上でパラメータ数76--84M、収束まで学習（50Kステップ、1.64Bトークン）した、制御された62の実験により、ルーティングのトポロジーは漸近的なパープレキシティ（PPL）を決定しないことが分かる。すなわち、コサイン・ルーティングの5つの変種は、統計的に1-PPLの範囲内で同等である（Two One-Sided Tests [TOST]、すべての10のペア比較で $p < 0.05$ ；3つのシードにわたる15回の実行、観測範囲33.93--34.72）。この知見は、ハッシュ、ランダム固定、top-1ルーティング（単一シード；寛容な1.1--2.2 PPLの低下）にも拡張され、OpenWebTextでも再現される（PPLギャップ0.03、各シード3回を含む6回実行）。

ルーティングパラメータが5.3 $imes$ 多い標準的な線形ルータはPPL 32.76に到達するが、同一パラメータ数のコサイン・ルーティングはそのギャップの67%を埋める――真のメカニズム上の優位は $es$ 1.2%である。

メカニズムの説明は収束的な冗長性である。多ホップの更新はコリニア（ $cos(Delta h_0, Delta h_1) = 0.805$ ）であり、複合的な推論ではなく、マグニチュード増幅を実装している。単一の学習可能なスカラーが、多ホップと同等の性能を再現する。実用上の利点として、ゼロショットの相対ノルム停止により、MoE FLOPsを25%節約しつつ、PPLの増加は+0.12%に抑えられる。トポロジーのレベルでの等収束（equifinality）と共存する、エキスパート級の専門化と因果的な制御可能性については、併載論文で探究している。