要旨: 推測的デコーディング(SD)は、小さなドラフトモデルを使用してドラフトトークンを提案し、それらを後により大きなターゲットモデルによって検証します。しかし、標準的なSDの性能は、これらのドラフト作成と検証の段階が厳密に逐次実行されることによってしばしば制限されます。これに対処するため、本論文は MineDraft を提案します。ドラフト作成の待機時間を検証と重ね合わせることにより効果的に隠すよう設計された、バッチ並列の推測的デコーディング(PSD)フレームワークです。私たちの理論分析は、PSD が標準 SD よりはるかに効率的であることを示しています。MineDraft は、ドラフト作成を1つのバッチと、もう1つのバッチの検証を重ね合わせる、2つのリクエストバッチを維持する新しいバッチ並列設計を通じて PSD を実現します。実験結果は、標準 SD に対してスループットが最大75%、エンドツーエンドのレイテンシが最大39%改善されることを示しています。さらに、MineDraft を vLLM のプラグインとして実装し、本番運用対応の推論システムに対する実用性を示しています。
MineDraft: バッチ並列推測デコードのフレームワーク
arXiv cs.AI / 2026/3/20
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 推測デコードは、小型のドラフトモデルを用いてトークンを提案し、それを後でより大きなターゲットモデルが検証することでLLM推論を加速する。しかし、標準のSDは厳密に逐次的なドラフト作成と検証ステージにより制約を受ける。
- MineDraftは、2つのリクエストバッチを保持し、一方のバッチのドラフト作成と他方のバッチの検証を重ね合わせてドラフト待機時間を隠蔽する、バッチ並列PSDフレームワークを提案する。
- 理論分析により、PSDは標準SDよりもはるかに効率的であることが示される。
- 実証的な結果は顕著な改善を示し、スループットは最大75%、エンドツーエンドのレイテンシは最大39%高速化される。さらに MineDraft は本番運用向けの推論システムをサポートするため、vLLMプラグインとして実装されている。