検証済みトークンをすべて有効にする:MoE推測デコーディングにおける適応的検証

arXiv cs.CL / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 木構造ベースの推測(speculative)デコーディングは、疎なMoEモデルでは効率が落ち得ます。理由は、ドラフトツリーが大きくなるほど異なる枝で異なるエキスパートが有効化され、ターゲット側の検証コストが増えるためです。
  • 本稿ではEVICTを提案します。EVICTは学習不要・ハイパーパラメータ不要・ロスレスな手法で、ターゲット側の検証の前にドラフトツリーを打ち切り、コスト効率の高い接頭辞だけを保持します。
  • EVICTは、候補トークンの有益性を推定するためにきめ細かな「ドラフター」シグナルを用い、さらにオフラインでプロファイルした検証コスト情報と組み合わせます。
  • 複数のMoEバックボーンとベンチマークでの実験により、EVICTは自己回帰(autoregressive)デコーディングに対して最大2.35×、SOTAベースラインのEAGLE-3に対して平均1.21×の速度向上を達成し、検証中の不要なエキスパート活性化も大幅に減らせることが示されています。
  • EVICTは、SGLangのような高性能なグラフベース・サービング基盤と高い互換性を持つよう設計されており、実運用の推論スタックへの組み込みが現実的です。

要旨: 木構造に基づく推測的デコーディングは、複数のドラフト候補を並列に検証することで、自己回帰的生成を高速化しますが、疎なMixture-of-Experts(MoE)モデルではこの利点が弱まります。ドラフトツリーが大きくなるにつれて、異なる枝が異なるエキスパートを起動し、起動されるエキスパートの集合(ユニオン)が拡大するとともに、ターゲット側での検証コストが大幅に増加します。我々は、MoE推測的デコーディングのための、学習不要・ハイパーパラメータ不要・ロスレスな適応型検証手法であるEVICTを提案します。EVICTは、ターゲット検証の前にドラフトツリーを切り詰め、有効で費用対効果の高いプレフィックスのみを保持することで、検証されたすべてのトークンが確実に“数えられる”ようにします。きめ細かなドラフタのシグナルを活用して候補の有益性を見積もり、それらをオフラインでプロファイルした検証コストと組み合わせ、最先端の高性能グラフベース・サービング基盤であるSGLangとも高い互換性を保ちます。多様なMoEバックボーンとベンチマークに対する大規模な実験の結果、EVICTは自己回帰的デコーディングに対して最大2.35倍の高速化を達成し、最先端ベースラインEAGLE-3に対して平均1.21倍の高速化を実現しつつ、検証中に不要なエキスパート起動を大幅に削減することが示されました。