概要: 強化学習(RL)によって一般目的の推論モデルを構築するには、推論時の応答長の大きなばらつきや検証のレイテンシなどを含む、ドメインをまたいだ大きな不均一性が伴います。このような変動はRL基盤を複雑にし、学習を遅らせ、学習カリキュラム(例:応答長の延長)やハイパーパラメータ選択を難しくします。本研究では、思考のみの対応モデルに対して性能ギャップを生じさせることなく、指示(instruct)モードと深い思考(deep thinking)モードの両方で動作可能な Nemotron-Cascade を開発するための、カスケード型ドメイン別強化学習(Cascade RL)を提案します。異なるドメインの不均一なプロンプトを混ぜ合わせる従来のアプローチから離れ、Cascade RL は、ドメイン別のRLを逐次的にオーケストレーションすることで、エンジニアリングの複雑さを低減し、幅広いベンチマークにおいて最先端の性能を提供します。特に、整合性(アラインメント)のためのRLHFを事前ステップとして用いることで、単なる嗜好最適化を超えてモデルの推論能力が大幅に向上し、その後のドメイン別RLVR段階では、先行ドメインで到達したベンチマーク性能が低下することはほとんどなく、むしろ改善することさえあります(図1の図解を参照)。14BモデルはRL後に、そのSFT教師モデルである DeepSeek-R1-0528 を LiveCodeBench v5/v6/Pro で上回り、さらに2025年 国際情報オリンピック(IOI)で銀メダル相当の性能を達成しました。私たちは学習およびデータのレシピを、透明性をもって共有します。
Nemotron-Cascade:汎用推論モデルのためのカスケード強化学習のスケーリング
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Nemotron-Cascade は、「ドメイン別カスケード強化学習」(Cascade RL)を導入し、応答長や検証レイテンシのばらつきなど、汎用推論タスクにおけるドメイン間の不均一性を扱えるようにする。
- 本手法は、不均一なプロンプトを混ぜ合わせるのではなく、ドメインごとに順次学習することで、エンジニアリングの複雑さを抑えつつ、指示モードとディープシンキングモードの間で性能を維持することを目指している。
- 著者らは、RLHF を事前ステップとして用いることで、嗜好最適化(preference optimization)単独で達成できる以上の推論能力が得られると報告しており、続くドメイン別の RLVR ステージは、先行するベンチマークでの獲得分を通常は損なわないとしている。
- この RL パイプラインで学習した 14B モデルは、LiveCodeBench v5/v6/Pro において SFT の教師モデル(DeepSeek-R1-0528)を上回るとされ、また 2025 年の IOI でシルバーメダル相当の性能に到達したと主張されている。
- 本論文は、学習手順およびデータレシピを透明に共有しており、再現性の確保と、推論モデルを構築する他者による導入を支援すると述べている。