推測的エキスパートが Mixture-of-Experts の推論を加速する
arXiv cs.AI / 2026/3/23
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 著者らは、混合エキスパートモデルに対して現在計算済みの内部表現を用いて次に必要となるエキスパートを推測するプリフェッチ手法を提案し、計算とメモリ転送を重ね合わせられるようにする。
- 複数の MoE アーキテクチャにおいて将来のエキスパートを信頼性高く予測できることを示し、下流タスクの精度を維持しつつ計算とメモリの重なりを改善した。
- 最適化された推論エンジンに組み込むと、この手法は CPU メモリからのオンデマンド読み込みと比較して出力トークンあたりの時間(TPOT)を最大14%削減する。
- 推測的実行が精度を損なう場合、エキスパート予測のヒット率を向上させ、性能劣化を最小化する軽量な推定器を検討する。
- 本研究はオープンソース化されており、提供された GitHub URL でコードが公開されており、採用と統合を促進する。
