DyMoE: エッジ上でのMoE推論を効率化する混合精度量子化による動的エキスパートオーケストレーション
arXiv cs.LG / 2026/3/20
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、エッジデバイス上のMoEモデルのメモリフットプリントとI/Oオーバーヘッドを削減し、リアルタイム推論を実現するための動的混合精度量子化フレームワークDyMoEを提案する。
- 重要度を考慮した優先順位付けを活用して、歪んだエキスパート重要度と深さ依存の感度に基づいてランタイムでエキスパートを量子化する。
- 深さ適応型スケジューリングを採用して重要な層の意味的整合性を維持し、I/O待機を重ね合わせるための先読みプリフェッチを行う。
- 商用エッジデバイス上での実験結果は、Time-to-First-Tokenを3.44倍〜22.7倍に削減し、Time-Per-Output-Tokenを最大14.58倍高速化して、制約のあるデバイス上で精度を維持しつつリアルタイムのMoE推論を実現する。
広告



