MoE-SpAc: 異種エッジ環境における推測的活性化ユーティリティに基づく効率的MoE推論
arXiv cs.AI / 2026/3/12
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- MoE-SpAcは、エッジMoE推論におけるメモリ制約に対処するため、Speculative Decodingをメモリを意識した先読み機構として再利用します。
- 推測ユーティリティ推定器を導入し、エキスパートの需要を予測してメモリ割り当てと追い出しの決定を導きます。
- オンライン整数最適化によって計算を分割する異種ワークロードバランサと、同じユーティリティ空間でプリフェッチと追い出しを同期させる非同期実行エンジンを採用します。
- 実験結果は、最先端のSDベースのベースラインに対してスループット(TPS)が42%向上し、標準ベースライン全体に対して平均で4.04倍の速度アップを示します。コードはGitHubで公開されています。
要旨: Mixture-of-Experts (MoE) モデルはスケーラブルな性能を実現しますが、エッジデバイスでは深刻なメモリ制約に直面します。既存のオフローディング戦略は、自己回帰的エキスパート活性化の動的で情報量の少ない性質のため、I/O ボトルネックに苦戦します。本論文では、Speculative Decoding(SD)を単なる計算加速器としてだけでなく、メモリ管理のための情報豊富な先読みセンサーとして再利用することを提案します。これを、理論的および経験的分析によって裏付けます。したがって、エキスパート需要を追跡する推測ユーティリティ推定器、オンライン整数最適化によって計算を動的に分割する異種ワークロードバランサ、そしてプリフェッチと追い出しを同じユーティリティ空間で統一する非同期実行エンジンを統合したMoE推論フレームワーク、MoE-SpAcを紹介します。7つのベンチマークでの広範な実験は、MoE-SpAcが最先端のSDベースのベースラインに対してTPSを42%向上させ、標準ベースライン全体に対して平均で4.04倍の速度アップを達成することを示しています。コードはhttps://github.com/lshAlgorithm/MoE-SpAc で公開されています。