システム統合型の推測デコーディングによるRLポストトレーニングのロールアウト高速化
arXiv cs.LG / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、最先端言語モデルのRLポストトレーニングが自己回帰的なロールアウト生成によってボトルネック化しており、ロールアウト加速が重要なシステム課題だと指摘しています。
- 目標モデルの出力分布を保持する“損失なし”の加速手段として、RLロールアウト向けの推測デコーディングを提案しています。
- 著者らは、NeMo-RLでvLLMバックエンドを用いて推測デコーディングを実装し、同期・非同期の両パイプラインでRLロールアウト中に推測を適用できるようにしています。
- 8B規模の推論ポストトレーニング(同期RL)ではロールアウトスループットが1.8×向上し、シミュレーションでは非同期RLと組み合わせた場合に235B規模でエンドツーエンド最大2.5×の学習高速化が見込まれるとしています。



