パス制約付きエキスパート混成モデル

arXiv cs.LG / 2026/3/20

📰 ニュースModels & Research

要点

  • PathMoE は連続する層にわたってルーティングパラメータを共有し、疎な MoE アーキテクチャにおける組合せ的なパス空間を削減するとともに、独立したルーティングに起因する統計的非効率を解消する。
  • この手法は、0.9B パラメータおよび 16B パラメータのモデルで、困惑度(perplexity)と下流タスクの性能を一貫して改善し、補助的なロードバランシング損失を必要としない。
  • 分析によると、同じパスをたどるトークンは言語機能によってクラスタ化され、PathMoE はより凝縮されたグループを生み出し、層間の一貫性が高く、ルーティングの摂動に対する頑健性も高い。
  • 本研究は MoE アーキテクチャを「エキスパート経路」という概念の周りに再構成し、設計と分析に新たな洞察を提供する。

要約:
スパース・ミクスチャー・オブ・エキスパート(MoE)アーキテクチャは、各入力ごとにパラメータの一部のみを活性化することで、効率的なスケーリングを実現します。
しかし、従来のMoEルーティングは各レイヤーのエキスパートを独立に選択するため、N^L 個のエキスパートパスを生成します。N 個のエキスパートが L 層にまたがっているためです。
これは典型的な訓練データセットのサイズをはるかに超えるため、統計的な非効率性を招きます。モデルはこのような膨大なパス空間から意味のある構造を学習できない可能性があります。
それを制約するために、連続する層間でルーターパラメータを共有する \pathmoe を提案します。
0.9B および 16B パラメータモデルを対象とした実験は、独立したルーティングに対して困惑度と下流タスクで一貫した改善を示し、補助的なロードバランシング損失の必要性を排除します。
分析によれば、同じパスに従うトークンは自然と言語機能別にクラスター化され、\pathmoe{} はより集約されたグループを生み出し、層間の一貫性が高まり、ルーティングの摂動に対する耐性も高まります。
これらの結果は、エキスパートパスの視点から MoE アーキテクチャを理解する新しい観点を提供します。