AI Navigate

Nemotron-Cascade 2: Cascade RLとマルチドメインのオンポリシー蒸留によるポストトレーニングLLMs

arXiv cs.CL / 2026/3/20

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Nemotron-Cascade 2は、オープンウェイトの30B MoEモデルで、3Bの活性化パラメータを有し、強力な推論能力とエージェント的能力を提供します。
  • コンパクトなサイズにもかかわらず、数学的推論とコーディング推論の分野で最先端のオープンモデルに迫りつつあり、パラメータ数は約20分の1であると主張しています。
  • 技術的進展として、Cascade RLをより広い推論およびエージェント的ドメインを対象に拡張すること、及び成果を維持するためのトップ中間教師モデルからのマルチドメインOn-Policy蒸留を含みます。
  • 著者らは再現性とより広い普及のため、モデルのチェックポイントとトレーニングデータを公開しています。

Abstract

Nemotron-Cascade 2 を紹介します。これは 3B 活性化パラメータを持つオープン 30B MoE モデルで、最良クラスの推論能力と強力なエージェント機能を提供します。コンパクトなサイズにもかかわらず、数学的・コーディングの推論性能は最前線のオープンモデルに近づいています。DeepSeekV3.2-Speciale-671B-A37B に次ぐ、2025 年の国際数学オリンピック(IMO)、国際情報オリンピック(IOI)、ICPC 世界決勝戦でゴールドメダル級の性能を達成した、オープンウェイトLLMの2例目であり、パラメータ数は従来比20分の1程度で、驚くほど高い知能密度を示します。 Nemotron-Cascade 1 とは対照的に、主要な技術的進歩は以下のとおりです。厳選されたデータセットに対する SFT の後、Cascade RL を大幅に拡張し、推論とエージェント的領域のはるかに広いスペクトルをカバーします。さらに、Cascade RL プロセス全体にわたって、各ドメインに対して最も強力な中間教師モデルからのマルチドメインのオンポリシー蒸留を導入し、ベンチマークの回帰を効率的に回復しつつ、途中での強力な性能向上を維持できるようにします。モデルのチェックポイントとトレーニングデータのコレクションを公開します。