要旨: Sparse Mixture-of-Experts(MoE)アーキテクチャでは、ますます洗練されたルーティング機構――学習されたルータ、多ホップの軌跡、トークン依存のゲーティング――が用いられている。そこで問いを投げかける: ルーティングのトポロジーは実際に言語モデリングの品質を決定するのだろうか? 我々は、低次元空間(d_{space} = 64)における学習済みセントロイドに対してコサイン類似度ルーティングを行う幾何学的MoE(ST-MoE)を構築し、標準的な線形ルータと比べてルーティングパラメータを80%削減する。
WikiText-103上でパラメータ数76--84M、収束まで学習(50Kステップ、1.64Bトークン)した、制御された62の実験により、ルーティングのトポロジーは漸近的なパープレキシティ(PPL)を決定しないことが分かる。すなわち、コサイン・ルーティングの5つの変種は、統計的に1-PPLの範囲内で同等である(Two One-Sided Tests [TOST]、すべての10のペア比較でp < 0.05;3つのシードにわたる15回の実行、観測範囲33.93--34.72)。この知見は、ハッシュ、ランダム固定、top-1ルーティング(単一シード;寛容な1.1--2.2 PPLの低下)にも拡張され、OpenWebTextでも再現される(PPLギャップ0.03、各シード3回を含む6回実行)。
ルーティングパラメータが5.3 imes多い標準的な線形ルータはPPL 32.76に到達するが、同一パラメータ数のコサイン・ルーティングはそのギャップの67%を埋める――真のメカニズム上の優位はes1.2%である。
メカニズムの説明は収束的な冗長性である。多ホップの更新はコリニア(cos(Delta h_0, Delta h_1) = 0.805)であり、複合的な推論ではなく、マグニチュード増幅を実装している。単一の学習可能なスカラーが、多ホップと同等の性能を再現する。実用上の利点として、ゼロショットの相対ノルム停止により、MoE FLOPsを25%節約しつつ、PPLの増加は+0.12%に抑えられる。トポロジーのレベルでの等収束(equifinality)と共存する、エキスパート級の専門化と因果的な制御可能性については、併載論文で探究している。



