MineDraft: バッチ並列推測デコードのフレームワーク

arXiv cs.AI / 2026/3/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

推測デコードは、小型のドラフトモデルを用いてトークンを提案し、それを後でより大きなターゲットモデルが検証することでLLM推論を加速する。しかし、標準のSDは厳密に逐次的なドラフト作成と検証ステージにより制約を受ける。
MineDraftは、2つのリクエストバッチを保持し、一方のバッチのドラフト作成と他方のバッチの検証を重ね合わせてドラフト待機時間を隠蔽する、バッチ並列PSDフレームワークを提案する。
理論分析により、PSDは標準SDよりもはるかに効率的であることが示される。
実証的な結果は顕著な改善を示し、スループットは最大75%、エンドツーエンドのレイテンシは最大39%高速化される。さらに MineDraft は本番運用向けの推論システムをサポートするため、vLLMプラグインとして実装されている。

要旨: 推測的デコーディング（SD）は、小さなドラフトモデルを使用してドラフトトークンを提案し、それらを後により大きなターゲットモデルによって検証します。しかし、標準的なSDの性能は、これらのドラフト作成と検証の段階が厳密に逐次実行されることによってしばしば制限されます。これに対処するため、本論文は MineDraft を提案します。ドラフト作成の待機時間を検証と重ね合わせることにより効果的に隠すよう設計された、バッチ並列の推測的デコーディング（PSD）フレームワークです。私たちの理論分析は、PSD が標準 SD よりはるかに効率的であることを示しています。MineDraft は、ドラフト作成を1つのバッチと、もう1つのバッチの検証を重ね合わせる、2つのリクエストバッチを維持する新しいバッチ並列設計を通じて PSD を実現します。実験結果は、標準 SD に対してスループットが最大75％、エンドツーエンドのレイテンシが最大39％改善されることを示しています。さらに、MineDraft を vLLM のプラグインとして実装し、本番運用対応の推論システムに対する実用性を示しています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

MineDraft: バッチ並列推測デコードのフレームワーク

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供