推測的エキスパートが Mixture-of-Experts の推論を加速する

arXiv cs.AI / 2026/3/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

著者らは、混合エキスパートモデルに対して現在計算済みの内部表現を用いて次に必要となるエキスパートを推測するプリフェッチ手法を提案し、計算とメモリ転送を重ね合わせられるようにする。
複数の MoE アーキテクチャにおいて将来のエキスパートを信頼性高く予測できることを示し、下流タスクの精度を維持しつつ計算とメモリの重なりを改善した。
最適化された推論エンジンに組み込むと、この手法は CPU メモリからのオンデマンド読み込みと比較して出力トークンあたりの時間（TPOT）を最大14%削減する。
推測的実行が精度を損なう場合、エキスパート予測のヒット率を向上させ、性能劣化を最小化する軽量な推定器を検討する。
本研究はオープンソース化されており、提供された GitHub URL でコードが公開されており、採用と統合を促進する。

Abstract

Mixture-of-Experts（MoE）モデルは、巨大言語モデル（LLMs）の容量を拡張しつつ、疎な活性化とトークンあたりの計算量を低減させる手段として人気を集めている。しかし、メモリ制約のある推論設定では、エキスパートの重みをCPUにオフロードする必要があり、デコード時のCPU–GPU間転送が性能のボトルネックとなる。プリフェッチ方式を用いたエキスパートの事前取得を提案し、現在計算済みの内部モデル表現を活用して将来のエキスパートを推測することで、メモリ転送を計算と重ね合わせられる。複数のMoEアーキテクチャにわたり、これらの内部表現によって将来のエキスパートを信頼性高く予測できることを示す。また、推測されたエキスパートを実行することで、下流タスクの精度を一般に維持できることを示しており、真のルータ選択エキスパートを再取得する必要をなくすことで、より効果的な計算－メモリの重ね合わせを維持する。最適化された推論エンジンに統合された本手法は、CPUメモリからエキスパートをオンデマンドでロードする場合と比較して、出力トークンあたりの時間（TPOT）を最大14％削減する。推測実行だけでは最適な精度を得られないMoEについては、エキスパート予測のヒット率を改善する軽量推定量をさらに検討し、性能低下を低減する。私たちのコードはオープンソースとして、https://github.com/axonn-ai/yalis/tree/offload_prefetch に公開されています。

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

日経XTECH

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Dev.to

Claude Code が私の RAM を 14GB 食い尽くしたので、ゾンビプロセスキラーを作った

Dev.to

推測的エキスパートが Mixture-of-Experts の推論を加速する

要点

Abstract

関連記事

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Claude Code が私の RAM を 14GB 食い尽くしたので、ゾンビプロセスキラーを作った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Claude Code が私の RAM を 14GB 食い尽くしたので、ゾンビプロセスキラーを作った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ