パス制約付きエキスパート混成モデル

arXiv cs.LG / 2026/3/20

📰 ニュースModels & Research

共有:

要点

PathMoE は連続する層にわたってルーティングパラメータを共有し、疎な MoE アーキテクチャにおける組合せ的なパス空間を削減するとともに、独立したルーティングに起因する統計的非効率を解消する。
この手法は、0.9B パラメータおよび 16B パラメータのモデルで、困惑度（perplexity）と下流タスクの性能を一貫して改善し、補助的なロードバランシング損失を必要としない。
分析によると、同じパスをたどるトークンは言語機能によってクラスタ化され、PathMoE はより凝縮されたグループを生み出し、層間の一貫性が高く、ルーティングの摂動に対する頑健性も高い。
本研究は MoE アーキテクチャを「エキスパート経路」という概念の周りに再構成し、設計と分析に新たな洞察を提供する。

要約：
スパース・ミクスチャー・オブ・エキスパート（MoE）アーキテクチャは、各入力ごとにパラメータの一部のみを活性化することで、効率的なスケーリングを実現します。
しかし、従来のMoEルーティングは各レイヤーのエキスパートを独立に選択するため、N^L 個のエキスパートパスを生成します。N 個のエキスパートが L 層にまたがっているためです。
これは典型的な訓練データセットのサイズをはるかに超えるため、統計的な非効率性を招きます。モデルはこのような膨大なパス空間から意味のある構造を学習できない可能性があります。
それを制約するために、連続する層間でルーターパラメータを共有する \pathmoe を提案します。
0.9B および 16B パラメータモデルを対象とした実験は、独立したルーティングに対して困惑度と下流タスクで一貫した改善を示し、補助的なロードバランシング損失の必要性を排除します。
分析によれば、同じパスに従うトークンは自然と言語機能別にクラスター化され、\pathmoe{} はより集約されたグループを生み出し、層間の一貫性が高まり、ルーティングの摂動に対する耐性も高まります。
これらの結果は、エキスパートパスの視点から MoE アーキテクチャを理解する新しい観点を提供します。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMの合成データ生成は臨床テキストマイニングに役立つか？

Dev.to

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

Dev.to

パス制約付きエキスパート混成モデル

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMの合成データ生成は臨床テキストマイニングに役立つか？

ローカルAI時代の夜明け：iPhone 17 ProからNVIDIA RTXの未来へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer