DyMoE: エッジ上でのMoE推論を効率化する混合精度量子化による動的エキスパートオーケストレーション

arXiv cs.LG / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、エッジデバイス上のMoEモデルのメモリフットプリントとI/Oオーバーヘッドを削減し、リアルタイム推論を実現するための動的混合精度量子化フレームワークDyMoEを提案する。
  • 重要度を考慮した優先順位付けを活用して、歪んだエキスパート重要度と深さ依存の感度に基づいてランタイムでエキスパートを量子化する。
  • 深さ適応型スケジューリングを採用して重要な層の意味的整合性を維持し、I/O待機を重ね合わせるための先読みプリフェッチを行う。
  • 商用エッジデバイス上での実験結果は、Time-to-First-Tokenを3.44倍〜22.7倍に削減し、Time-Per-Output-Tokenを最大14.58倍高速化して、制約のあるデバイス上で精度を維持しつつリアルタイムのMoE推論を実現する。
広告