AI Navigate

スパース・ミクスチャー・オブ・エキスパート(MoE)トランスフォーマーにおけるタスク条件付きルーティング・シグネチャー

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • スパース・ミクスチャー・オブ・エキスパート(MoE)トランスフォーマーにおける専門家の活性化パターンを要約するルーティング・シグネチャーを導入し、それを用いてタスク条件付きルーティングを研究する。
  • OLMoE-1B-7B-0125-Instruct を用いた実証結果は、同じタスクカテゴリからのプロンプトが高度に類似したルーティング・シグネチャーを誘発する一方で、異なるカテゴリのプロンプトは類似性が著しく低いことを示しており、ルーティングにおけるタスク構造を示唆する。
  • カテゴリ内のルーティング類似性(0.8435 ± 0.0879)はカテゴリ間類似性(0.6225 ± 0.1687)を大きく上回り、コーエンのd = 1.44に相当する。
  • ルーティング・シグネチャーのみを用いて訓練したロジスティック回帰分類器は、4クラスのタスク分類に対して交差検証付き精度92.5% ± 6.1%を達成する。
  • 結果を検証するため、パーミュテーションおよびロードバランシングのベースラインを導入し、観測された分離がスパース性やバランシング制約だけでは説明されないことを示す。
  • より深い層ではタスク構造がより顕著になることを観察し、MOE-XRAYという軽量ツールキットを公開する。

要旨:スパース・ミクスチャー・オブ・エキスパート(MoE)アーキテクチャは、条件付き計算を通じて大規模言語モデルの効率的なスケーリングを可能にするが、エキスパート選択を担うルーティング機構は依然として理解が不十分である。本研究では、ルーティング・シグネチャーを導入する。これは、特定のプロンプトに対して層を跨いでエキスパートの活性化パターンを要約するベクトル表現であり、それを用いてMoEのルーティングにタスク条件付きの構造が現れるかを研究する。実証実験としてOLMoE-1B-7B-0125-Instructを用い、同じタスクカテゴリからのプロンプトは高度に類似したルーティング・シグネチャーを誘発する一方、異なるカテゴリのプロンプトは類似性が著しく低いことを示す。カテゴリ内のルーティング類似性(0.8435 ± 0.0879)はカテゴリ間類似性(0.6225 ± 0.1687)を大きく上回り、コーエンのd = 1.44に相当する。ルーティング・シグネチャーのみを用いて訓練したロジスティック回帰分類器は、4クラスのタスク分類に対して交差検証付き精度92.5% ± 6.1%を達成する。統計的妥当性を確保するため、置換(パーミュテーション)およびロードバランシングのベースラインを導入し、観測された分離がスパース性やバランシング制約だけでは説明されないことを示す。さらに、層ごとの信号強度とルーティング・シグネチャーの低次元射影を分析し、タスク構造が深い層でより顕著になることを見出した。これらの結果は、スパース・トランスフォーマーにおけるルーティングが単なるバランシング機構ではなく、条件付き計算の測定可能なタスク感応成分であることを示唆する。我々はMOE-XRAYと呼ばれる、ルーティングのテレメトリと分析のための軽量ツールキットを公開する。