AI Navigate

推測的エキスパートが Mixture-of-Experts の推論を加速する

arXiv cs.AI / 2026/3/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者らは、混合エキスパートモデルに対して現在計算済みの内部表現を用いて次に必要となるエキスパートを推測するプリフェッチ手法を提案し、計算とメモリ転送を重ね合わせられるようにする。
  • 複数の MoE アーキテクチャにおいて将来のエキスパートを信頼性高く予測できることを示し、下流タスクの精度を維持しつつ計算とメモリの重なりを改善した。
  • 最適化された推論エンジンに組み込むと、この手法は CPU メモリからのオンデマンド読み込みと比較して出力トークンあたりの時間(TPOT)を最大14%削減する。
  • 推測的実行が精度を損なう場合、エキスパート予測のヒット率を向上させ、性能劣化を最小化する軽量な推定器を検討する。
  • 本研究はオープンソース化されており、提供された GitHub URL でコードが公開されており、採用と統合を促進する。

Abstract

Mixture-of-Experts(MoE)モデルは、巨大言語モデル(LLMs)の容量を拡張しつつ、疎な活性化とトークンあたりの計算量を低減させる手段として人気を集めている。 しかし、メモリ制約のある推論設定では、エキスパートの重みをCPUにオフロードする必要があり、デコード時のCPU–GPU間転送が性能のボトルネックとなる。プリフェッチ方式を用いたエキスパートの事前取得を提案し、現在計算済みの内部モデル表現を活用して将来のエキスパートを推測することで、メモリ転送を計算と重ね合わせられる。 複数のMoEアーキテクチャにわたり、これらの内部表現によって将来のエキスパートを信頼性高く予測できることを示す。 また、推測されたエキスパートを実行することで、下流タスクの精度を一般に維持できることを示しており、真のルータ選択エキスパートを再取得する必要をなくすことで、より効果的な計算-メモリの重ね合わせを維持する。 最適化された推論エンジンに統合された本手法は、CPUメモリからエキスパートをオンデマンドでロードする場合と比較して、出力トークンあたりの時間(TPOT)を最大14%削減する。 推測実行だけでは最適な精度を得られないMoEについては、エキスパート予測のヒット率を改善する軽量推定量をさらに検討し、性能低下を低減する。 私たちのコードはオープンソースとして、https://github.com/axonn-ai/yalis/tree/offload_prefetch に公開されています。