要旨: スペキュレイティブ・デコーディング(SD)は、小型モデルを用いて将来のトークンを下書きし、その後にターゲットとなるLLMでそれらを検証することで、大規模言語モデル(LLM)の推論を高速化します。これは整合したトークンのみを受理することで生成品質を維持します。しかし、特定のタスクや領域のために学習されることが多い個々の下書きモデル(drafter)は、多様なアプリケーションにわたって限定的な有効性しか示しません。これに対処するために、複数のdraftersをSDプロセスに統合する統一フレームワークである\textsc{MetaSD}を提案します。MetaSDは、整合性フィードバックを活用し、下書きモデルの選択を多腕バンディット問題として定式化することで、異種のdraftersに対して計算資源を動的に割り当てます。大規模な実験により、MetaSDが単一-drafterの手法に対して一貫して優れた性能を示すことが確認されています。
アラインメントフィードバック付きマルチ・ドラフター推測デコーディング
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 小型モデルが候補トークンを下書きし、大型のターゲットモデルがそれを検証することで、推測デコーディングはLLM推論を高速化しつつ出力品質を維持します。
- 本論文では、特に特定のタスク/ドメイン向けに調整された単一のドラフターは、多様なアプリケーションに対してうまく汎化できないと主張しています。
- 複数の異種なドラフターを1つのパイプラインに統合する推測デコーディングの統一フレームワークとして、MetaSDを提案します。
- MetaSDはアラインメントフィードバックを用い、ドラフターの選択をマルチアームド・バンディットとして定式化して、最も効果的なドラフターに計算資源を動的に配分します。
- 本研究で報告された実験結果では、MetaSDが単一ドラフターによる推測デコーディング手法に対して一貫して優れていることが示されています。




