概要: 推測的デコードは、大規模言語モデルの推論を加速させるために広く採用されているパラダイムとして浮上しており、軽量なドラフトモデルが迅速に候補トークンを生成し、それがより大きなターゲットモデルによって並列に検証される。
しかし、モデル容量の制限により、ドラフトはターゲット分布を近似するのに苦労することが多く、受理長が短くなり、スピードアップが減少する。
重要で未検討の観察点のひとつは、推測的デコードが本質的に追加コストなしでドラフトとターゲットモデル間の乖離を定量化する検証フィードバックを提供することである。
この過程は自然に「ドラフトがコミットされ、フィードバックを提供し、ドラフトが適応する」進化的ループを形成し、オンライン学習パラダイムと正確に一致する。
この関連性に動機づけられ、我々は OnlineSpec を提案する。これは、相互作用的なフィードバックを体系的に活用してドラフトモデルを継続的に進化させる統一フレームワークである。
動的後悔最小化に基づき、オンライン学習の性能と推測システムの加速率との正式な関連を確立し、現代のオンライン学習技術を用いて新規アルゴリズムを開発する。これには、過去の勾配を予測的更新ヒントとして適応的に再利用する楽観的オンライン学習や、複数のドラフトモデルを動的に保持するオンラインアンサンブル学習などが含まれる。
我々のアルゴリズムは理論的正当化と改善された加速率を備え、7つのベンチマークと3つのファウンデーションモデルにおいて最大24%のスピードアップを達成している。
ドラフトが進化するとき: 推測デコーディングとオンライン学習の出会い
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- OnlineSpec は、推測デコーディングからのフィードバックを活用して、オンライン学習の視点からドラフトモデルを継続的に進化させる統一的なフレームワークとして提案される。
- 本論文は、オンラインリグレット最小化と推測デコーディングの加速との関連性を形式化し、理論的保証を提供する。
- 過去の勾配を再利用し、複数のドラフトを維持するための、オプティミスティックオンライン学習およびオンラインアンサンブル学習といったアルゴリズムを導入する。
- 実証結果は、7つのベンチマークと3つの基盤モデルにおいて最大で24%のスピードアップを示し、実践的な加速の可能性を示している。

