DyMoE: エッジ上でのMoE推論を効率化する混合精度量子化による動的エキスパートオーケストレーション

arXiv cs.LG / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、エッジデバイス上のMoEモデルのメモリフットプリントとI/Oオーバーヘッドを削減し、リアルタイム推論を実現するための動的混合精度量子化フレームワークDyMoEを提案する。
重要度を考慮した優先順位付けを活用して、歪んだエキスパート重要度と深さ依存の感度に基づいてランタイムでエキスパートを量子化する。
深さ適応型スケジューリングを採用して重要な層の意味的整合性を維持し、I/O待機を重ね合わせるための先読みプリフェッチを行う。
商用エッジデバイス上での実験結果は、Time-to-First-Tokenを3.44倍〜22.7倍に削減し、Time-Per-Output-Tokenを最大14.58倍高速化して、制約のあるデバイス上で精度を維持しつつリアルタイムのMoE推論を実現する。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

日経XTECH

日経XTECH

日経XTECH

Wired

Dev.to