システム統合型の推測デコーディングによるRLポストトレーニングのロールアウト高速化

arXiv cs.LG / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、最先端言語モデルのRLポストトレーニングが自己回帰的なロールアウト生成によってボトルネック化しており、ロールアウト加速が重要なシステム課題だと指摘しています。
目標モデルの出力分布を保持する“損失なし”の加速手段として、RLロールアウト向けの推測デコーディングを提案しています。
著者らは、NeMo-RLでvLLMバックエンドを用いて推測デコーディングを実装し、同期・非同期の両パイプラインでRLロールアウト中に推測を適用できるようにしています。
8B規模の推論ポストトレーニング（同期RL）ではロールアウトスループットが1.8×向上し、シミュレーションでは非同期RLと組み合わせた場合に235B規模でエンドツーエンド最大2.5×の学習高速化が見込まれるとしています。

Reddit r/MachineLearning

Dev.to

Dev.to

Dev.to

Dev.to