幾何学的ルーティングにより、Mixture of Expertsにおける因果的なエキスパート制御を実現

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、スパースなMixture of Experts（MoE）が計算効率を高める一方で、各エキスパートの専門性は通常ブラックボックス化している点に着目し、エキスパートの同一性を因果的に解釈可能にする手法を提示します。
低次元の計量空間でコサイン類似度にもとづくルーティングと幾何学的制約を用いることで、ランク1のエキスパートが単意味（モノセマンティック）になり、その役割を直接確認できることを示します。
出力ベクトルをunembedding行列を通して射影して作る「Semantic Dictionary」により、約15%のエキスパートが時間・地理・感情・金融・軍事などの10カテゴリにまたがる専門家として振る舞うと報告しています。
さらに、頻度から構文への勾配としての層ごとの傾向や、カテゴリ確率を大きく変える因果介入（例：時間で+321%、地理で−23%）など、複数の検証に基づいて主張を裏づけています。
介入による制御は推論時の追加オーバーヘッドなしで実現でき、線形ルータ等と比べてコサインルーティングだけが「幾何学的な透明性」を提供すると述べています。

Abstract

スパース混合専門家（MoE）モデルは、トークンあたりのアクティブ計算量を固定したままパラメータ数をスケールできますが、個々の専門家の特化は不透明なままです。同伴論文では、ルーティングのトポロジーは品質に中立であることを示しました。すなわち、構造的に異なる5つの設定が、統計的に同等な言語モデリング品質へ収束します。ここでは、専門家アイデンティティがそれでも因果的に意味を持つことを示します。すなわち、個々のランク1専門家は構築上モノセマンティックであり、低次元の計量空間におけるコサイン類似度によるルーティングによって、それらの特化が直接検査可能になります。我々は4つの証拠の筋を提示します。第一に、専門家の出力ベクトルをアンベッディング行列を通して射影すると、意味辞書が得られます。15%の専門家がモノセマンティックな専門家であり、10カテゴリ（時間的、地理的、基数的、ディスコース、感情的、財務的、軍事的、科学的）にまたがります。第二に、ルーティングには周波数から構文への勾配が観測されます。初期層では単語の頻度によってトークンが分離され、より深い層では構文クラスによって分離されます（Zipfの交絡を制御しても、すべて

p < 0.001

）。第三に、因果介入によってこれらのラベルが確認されます。すなわち、時間的専門家の重心へ誘導すると P(temporal) が +321% 増加します（44のプロンプトの中央値）。地理的専門家を抑制すると P(geographic) が -23% 減少します。さらに、専門家の出力ベクトルを書き換えると、ターゲットカテゴリの確率が半減し、効果は層をまたいで加法的に合成されます。第四に、これらの介入はコサイン・ルーティングに固有ではありません。線形ルータも同等の誘導を可能にしますが、幾何学的な透明性を提供するのはコサイン・ルーティングのみです――専門家の特化は重心行列から直接読み取れます。 MoEにおける専門家レベルの特化は、解釈可能性の第一級プリミティブです。建築上モノセマンティックであり、因果的に検証され、推論時にオーバーヘッドゼロで制御可能です。