要約: 微細粒度MoEのスケーリング則により、中間次元の粒度が最適閾値を超えるとモデル性能の向上は停止し、単一次元の細粒度設計から得られる追加の利得が制限されます。このボトルネックに対処するため、FineRMoE(FineR-粒度 MoE)を提案します。これは中間次元と出力次元の両方に細粒度エキスパート設計を拡張し、単一次元の限界を超えてエキスパートの専門性を高めることを目的としています。さらに、活性化を支配するための二層スパース前方計算パラダイムと特化したルーティング機構を導入します。加えて、ゼロからFineRMoEを訓練する際の膨大なコストを回避するために、費用対効果の高い方法でFineRMoEを構築する汎用的なアップサイクリング手法を考案しました。大規模な実験により、FineRMoEが10の標準ベンチマークにわたって卓越した性能を発揮することが示されています。最も強力なベースラインと比較して、FineRMoEはパラメータ効率を6倍、プリフィル待機時間を281分の1に低減、推論時のデコードスループットを136倍向上させます。
FineRMoE: 細粒度エキスパートの次元拡張とそのアップサイクリング手法
arXiv cs.CV / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- FineRMoE は、粒度の単一の次元の制限を超えるために、細粒度 MoE 設計を中間層と出力の次元の両方に拡張します。
- 二階層のスパースフォワード計算方式と、どのエキスパートを活性化するかを制御する特化ルータを導入します。
- 本論文は、ゼロからの訓練を行うことなく FineRMoE を構築するための費用対効果の高いアップサイクリング手法を提案し、リソース要件を削減します。
- 10 のベンチマークにおける実験結果は、パラメータ効率を6倍、プリフィル待機時間を281倍低減、デコード処理スループットを136倍向上など、顕著な向上を示します。
- このアプローチは、実世界のシステムにおいてより効率的でスケーラブルな MoE の展開へ道を開くことを示唆します。




