MoE専門化のための幾何学的メトリクス:フィッシャー情報から早期故障検知へ

arXiv cs.AI / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Mixture-of-Experts(MoE)における専門化を、理論的に裏付けられた方法で測定・解析するための情報幾何学的フレームワークを提案します。
  • 専門家ルーティング分布を、フィッシャー情報メトリクスに基づく確率単体上でモデル化し、リーマン幾何を用いて結果(一般的なヒューリスティックがパラメータ化不変性に違反することの証明など)を導出します。
  • 新たに2つの指標、Fisher Specialization Index(FSI)とFisher Heterogeneity Score(FHS)を定義し、下流性能との強い相関や学習失敗の予測性能を報告しています。
  • FHSに基づく故障予測器により早期検知を行い、検証損失ベースの早期停止より23%上回りつつ、計算コストを大幅に削減します。
  • 言語・視覚のMoE実験やスケーリング検証にわたり、理論と介入プロトコルが確認され、FHS>1検知時の回復率は87%とされています。

要旨: 専門性(エキスパートの特化)は、Mixture-of-Experts(MoE)モデルの成功にとって基本的である。しかし、既存の指標(コサイン類似度、ルーティングエントロピー)は理論的な裏付けに欠け、再パラメータ化の下で一貫しない結論を生み出す。われわれは、MoEの特化ダイナミクスに対する最初の厳密な特徴づけを与える情報幾何学的フレームワークを提示する。主要な洞察は、専門家ルーティング分布が、フィッシャー情報計量を備えた確率単体上で進化することであり、リーマン幾何学による形式的解析を可能にする点にある。標準的なヒューリスティック指標はパラメータ化不変性に違反すること(定理1)を証明し、特化が、近似の上界を定量化したうえで、測地線フローに対応すること(定理2)を確立し、理論的な閾値根拠を伴う失敗予測器(定理3)を導出する。このフレームワークでは、2つの原理に基づく指標を導入する。Fisher Specialization Index(FSI)は、下流の性能との相関 r=0.91+/-0.02 を達成し、Fisher Heterogeneity Score(FHS)は、学習の10%完了時点で訓練失敗を予測し、AUC=0.89+/-0.03 を得る。これらは、検証損失に基づく早期終了を23%上回り、必要な計算サイクルは40分の1ですむ。FHS>1 が検出された場合に介入プロトコルを実行することで、87%の回復率を達成することを検証する。言語モデリング(WikiText-103、C4)、視覚MoE(ImageNet)、およびスケーリング研究(8〜64エキスパート、125M〜2.7Bパラメータ)にわたる包括的な実験により、理論的予測が検証される。