MoE(Mixture of Experts)における等目的性:ルーティングのトポロジーは言語モデル品質を決めない

arXiv cs.AI / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Mixture of Experts(MoE)のルーティング・トポロジー(学習されたルータ、マルチホップ、トークン依存ゲーティングなど)が言語モデリング品質に本当に影響するのかを検証し、低次元空間(d_space=64)でコサイン類似度に基づく幾何学的ルータ(ST-MoE)を用いています。
  • WikiText-103(76–84Mパラメータ)で収束まで学習した62の管理実験では、コサイン系ルーティングの5つのバリアントが漸近的なパープレキシティで1-PPL以内の範囲に収まり、最終品質はルーティング・トポロジーに左右されないことを示しています。
  • ハッシュ、ランダム固定、top-1 など別方式のルーティングでも同様の傾向が確認され、一部では穏やかな劣化にとどまり、OpenWebTextでも再現されています。
  • 5.3倍のルーティング・パラメータを使う標準的なリニアルータと比べると、等パラメータ条件のコサイン・ルーティングはギャップの67%を回復し、全体としての「機構的優位性」は小さい(約1.2%)ことが示唆されます。
  • 著者らは、ほぼトポロジーに依存しない理由を「収束的冗長性」として説明し、マルチホップ更新が主にコリニア(直線状)で、合成的推論というよりは大きさの増幅として働くと述べています。また、相対ノルムに基づくゼロショット停止によりMoE計算量FLOPsを25%削減しつつ、PPL増加は+0.12%に抑えられる実用的効果も示しています。

要旨: Sparse Mixture-of-Experts(MoE)アーキテクチャでは、ますます洗練されたルーティング機構――学習されたルータ、多ホップの軌跡、トークン依存のゲーティング――が用いられている。そこで問いを投げかける: ルーティングのトポロジーは実際に言語モデリングの品質を決定するのだろうか? 我々は、低次元空間(d_{space} = 64)における学習済みセントロイドに対してコサイン類似度ルーティングを行う幾何学的MoE(ST-MoE)を構築し、標準的な線形ルータと比べてルーティングパラメータを80%削減する。

WikiText-103上でパラメータ数76--84M、収束まで学習(50Kステップ、1.64Bトークン)した、制御された62の実験により、ルーティングのトポロジーは漸近的なパープレキシティ(PPL)を決定しないことが分かる。すなわち、コサイン・ルーティングの5つの変種は、統計的に1-PPLの範囲内で同等である(Two One-Sided Tests [TOST]、すべての10のペア比較でp < 0.05;3つのシードにわたる15回の実行、観測範囲33.93--34.72)。この知見は、ハッシュ、ランダム固定、top-1ルーティング(単一シード;寛容な1.1--2.2 PPLの低下)にも拡張され、OpenWebTextでも再現される(PPLギャップ0.03、各シード3回を含む6回実行)。

ルーティングパラメータが5.3 imes多い標準的な線形ルータはPPL 32.76に到達するが、同一パラメータ数のコサイン・ルーティングはそのギャップの67%を埋める――真のメカニズム上の優位はes1.2%である。

メカニズムの説明は収束的な冗長性である。多ホップの更新はコリニア(cos(Delta h_0, Delta h_1) = 0.805)であり、複合的な推論ではなく、マグニチュード増幅を実装している。単一の学習可能なスカラーが、多ホップと同等の性能を再現する。実用上の利点として、ゼロショットの相対ノルム停止により、MoE FLOPsを25%節約しつつ、PPLの増加は+0.12%に抑えられる。トポロジーのレベルでの等収束(equifinality)と共存する、エキスパート級の専門化と因果的な制御可能性については、併載論文で探究している。