SpecMoE:自己支援型スペキュレイティブデコーディングによる、高速かつ効率的なMixture-of-Experts推論

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SpecMoEは、高いメモリ使用量とLLMにおけるパラメータ効率の不十分さという導入上の課題に焦点を当てた、メモリ効率に優れたMixture-of-Experts(MoE)推論システムとして提示される。
  • この手法は、追加のモデル学習やファインチューニングを必要とせずに、自己支援型スペキュレイティブデコーディングアルゴリズムを活用することで、MoE推論のスループットを最大4.30×向上させる。
  • 本研究は、スペキュレイティブデコーディングをMoE推論に適用する方法を位置づけることで、特に大きなバッチサイズにおいて、既存のCPUオフロード型MoEシステムの制約を克服する。
  • メモリとインターコネクトの双方に対する帯域需要が大幅に削減されることを報告しており、メモリ制約のあるシステムでの性能向上を目指している。

要旨: Mixture-of-Experts(MoE)アーキテクチャは、選択的にパラメータを有効化することで、大規模言語モデル(LLM)の計算コストの増大を緩和する有望なアプローチとして注目されてきました。しかし、その高いメモリ要求と、パラメータ効率の不十分さが、効率的なデプロイに向けた大きな課題となっています。文献では、CPUオフロード型のMoE推論システムが提案されていますが、特に大きなバッチサイズにおいては効率が限られています。本研究では、我々の自己支援型スペキュラティブ・デコーディングアルゴリズムに基づく、メモリ効率の高いMoE推論システムであるSpecMoEを提案します。SpecMoEは、追加のモデル学習やファインチューニングを必要とせずに、MoE推論へスペキュラティブ・デコーディングを適用することの有効性を示します。本システムは、推論スループットを最大4.30\times改善し、さらに、メモリ制約のあるシステムにおいて、メモリおよびインターコネクトの双方に関する帯域要求を大幅に削減します。