Abstract
スパース混合専門家(MoE)モデルは、トークンあたりのアクティブ計算量を固定したままパラメータ数をスケールできますが、個々の専門家の特化は不透明なままです。同伴論文では、ルーティングのトポロジーは品質に中立であることを示しました。すなわち、構造的に異なる5つの設定が、統計的に同等な言語モデリング品質へ収束します。ここでは、専門家アイデンティティがそれでも因果的に意味を持つことを示します。すなわち、個々のランク1専門家は構築上モノセマンティックであり、低次元の計量空間におけるコサイン類似度によるルーティングによって、それらの特化が直接検査可能になります。
我々は4つの証拠の筋を提示します。第一に、専門家の出力ベクトルをアンベッディング行列を通して射影すると、意味辞書が得られます。15%の専門家がモノセマンティックな専門家であり、10カテゴリ(時間的、地理的、基数的、ディスコース、感情的、財務的、軍事的、科学的)にまたがります。第二に、ルーティングには周波数から構文への勾配が観測されます。初期層では単語の頻度によってトークンが分離され、より深い層では構文クラスによって分離されます(Zipfの交絡を制御しても、すべて p < 0.001)。第三に、因果介入によってこれらのラベルが確認されます。すなわち、時間的専門家の重心へ誘導すると P(temporal) が +321% 増加します(44のプロンプトの中央値)。地理的専門家を抑制すると P(geographic) が -23% 減少します。さらに、専門家の出力ベクトルを書き換えると、ターゲットカテゴリの確率が半減し、効果は層をまたいで加法的に合成されます。第四に、これらの介入はコサイン・ルーティングに固有ではありません。線形ルータも同等の誘導を可能にしますが、幾何学的な透明性を提供するのはコサイン・ルーティングのみです――専門家の特化は重心行列から直接読み取れます。
MoEにおける専門家レベルの特化は、解釈可能性の第一級プリミティブです。建築上モノセマンティックであり、因果的に検証され、推論時にオーバーヘッドゼロで制御可能です。