システム統合型の推測デコーディングによるRLポストトレーニングのロールアウト高速化

arXiv cs.LG / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、最先端言語モデルのRLポストトレーニングが自己回帰的なロールアウト生成によってボトルネック化しており、ロールアウト加速が重要なシステム課題だと指摘しています。
  • 目標モデルの出力分布を保持する“損失なし”の加速手段として、RLロールアウト向けの推測デコーディングを提案しています。
  • 著者らは、NeMo-RLでvLLMバックエンドを用いて推測デコーディングを実装し、同期・非同期の両パイプラインでRLロールアウト中に推測を適用できるようにしています。
  • 8B規模の推論ポストトレーニング(同期RL)ではロールアウトスループットが1.8×向上し、シミュレーションでは非同期RLと組み合わせた場合に235B規模でエンドツーエンド最大2.5×の学習高速化が見込まれるとしています。