要約: 大規模言語モデルは、逐次的自己回帰デコードのために推論遅延が高くなります。スペキュレーティブデコードは、軽量なドラフトモデルを用いてバッチ検証のために複数のトークンを提案することでこのボトルネックを緩和します。しかし、その普及は高品質なドラフトモデルとスケーラブルなトレーニング基盤の不足によって制約されてきました。我々は、EAGLE-3を完全にサポートするドラフトモデルの学習のためのオープンソースで生産志向のフレームワーク SpecForge を紹介します。SpecForge は、ターゲットドラフトデカップリング、ハイブリッド並列性、最適化されたトレーニングカーネル、および実運用グレードの推論エンジンとの統合を組み込んでおり、Qwen3-235B-A22B に対する EAGLE-3 の学習を最大9.9倍高速化します。さらに、SpecForge を用いて訓練された主流のオープンソース LLM 向けの実運用グレードの EAGLE-3 ドラフトモデル群を含む SpecBundle を公開します。系統的なスペキュレーティブデコードのトレーニングレシピに関する研究を通じて、SpecBundle はコミュニティにおける高品質ドラフトの不足に対処し、我々のドラフトモデルは SGLang でエンドツーエンド推論を最大で 4.48x 高速化し、SpecForge を現実世界のスペキュレーティブデコード展開の実用的な基盤として確立します。
SpecForge: 推測的デコーディングのための柔軟で高効率なオープンソース学習フレームワーク
arXiv cs.LG / 2026/3/20
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- SpecForge は、EAGLE-3 を完全にサポートする、推測デコーディングモデルのトレーニング用オープンソースの生産志向フレームワークとして紹介されます。
- ターゲット・ドラフトのデカップリング、ハイブリッド並列性、最適化されたトレーニングカーネル、そして本番品質の推論エンジンとの統合を含み、Qwen3-235B-A22B 上で EAGLE-3 のトレーニングを最大で 9.9x 加速します。
- プロジェクトは SpecBundle を公開します。SpecBundle は、SpecForge でトレーニングされた EAGLE-3 のドラフトモデルの生産グレード版を一式提供し、主流のオープンソース LLM 向けに対応します。これにより高品質ドラフトの不足という課題に対処します。
- 推測デコーディングのトレーニング手法の系統的な検討は、SGLang でのエンドツーエンド推論を最大 4.48 倍高速化することを示し、SpecForge を実世界展開の実用的な基盤として確立します。




