MoE-SpAc: 異種エッジ環境における推測的活性化ユーティリティに基づく効率的MoE推論

arXiv cs.AI / 2026/3/12

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

MoE-SpAcは、エッジMoE推論におけるメモリ制約に対処するため、Speculative Decodingをメモリを意識した先読み機構として再利用します。
推測ユーティリティ推定器を導入し、エキスパートの需要を予測してメモリ割り当てと追い出しの決定を導きます。
オンライン整数最適化によって計算を分割する異種ワークロードバランサと、同じユーティリティ空間でプリフェッチと追い出しを同期させる非同期実行エンジンを採用します。
実験結果は、最先端のSDベースのベースラインに対してスループット（TPS）が42%向上し、標準ベースライン全体に対して平均で4.04倍の速度アップを示します。コードはGitHubで公開されています。

要旨: Mixture-of-Experts (MoE) モデルはスケーラブルな性能を実現しますが、エッジデバイスでは深刻なメモリ制約に直面します。既存のオフローディング戦略は、自己回帰的エキスパート活性化の動的で情報量の少ない性質のため、I/O ボトルネックに苦戦します。本論文では、Speculative Decoding（SD）を単なる計算加速器としてだけでなく、メモリ管理のための情報豊富な先読みセンサーとして再利用することを提案します。これを、理論的および経験的分析によって裏付けます。したがって、エキスパート需要を追跡する推測ユーティリティ推定器、オンライン整数最適化によって計算を動的に分割する異種ワークロードバランサ、そしてプリフェッチと追い出しを同じユーティリティ空間で統一する非同期実行エンジンを統合したMoE推論フレームワーク、MoE-SpAcを紹介します。7つのベンチマークでの広範な実験は、MoE-SpAcが最先端のSDベースのベースラインに対してTPSを42%向上させ、標準ベースライン全体に対して平均で4.04倍の速度アップを達成することを示しています。コードはhttps://github.com/lshAlgorithm/MoE-SpAc で公開されています。

Claude API 実践：ストリーミング・Tool Use・構造化出力

AI Navigate Original

Claudeが苦手なこと・注意点：ハルシネーションと限界の理解

AI Navigate Original

Claude API 実践：ストリーミング・Tool Use・構造化出力

AI Navigate Original

Claude API 入門：アプリにClaude を組み込む方法

AI Navigate Original

Claude Code 入門：ターミナルから使うAIコーディングアシスタント

AI Navigate Original

MoE-SpAc: 異種エッジ環境における推測的活性化ユーティリティに基づく効率的MoE推論

要点

関連記事

Claude API 実践：ストリーミング・Tool Use・構造化出力

Claudeが苦手なこと・注意点：ハルシネーションと限界の理解

Claude API 実践：ストリーミング・Tool Use・構造化出力

Claude API 入門：アプリにClaude を組み込む方法

Claude Code 入門：ターミナルから使うAIコーディングアシスタント

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer