Nemotron-Cascade 2: Cascade RLとマルチドメインのオンポリシー蒸留によるポストトレーニングLLMs

arXiv cs.CL / 2026/3/20

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

Nemotron-Cascade 2は、オープンウェイトの30B MoEモデルで、3Bの活性化パラメータを有し、強力な推論能力とエージェント的能力を提供します。
コンパクトなサイズにもかかわらず、数学的推論とコーディング推論の分野で最先端のオープンモデルに迫りつつあり、パラメータ数は約20分の1であると主張しています。
技術的進展として、Cascade RLをより広い推論およびエージェント的ドメインを対象に拡張すること、及び成果を維持するためのトップ中間教師モデルからのマルチドメインOn-Policy蒸留を含みます。
著者らは再現性とより広い普及のため、モデルのチェックポイントとトレーニングデータを公開しています。

Abstract

Nemotron-Cascade 2 を紹介します。これは 3B 活性化パラメータを持つオープン 30B MoE モデルで、最良クラスの推論能力と強力なエージェント機能を提供します。コンパクトなサイズにもかかわらず、数学的・コーディングの推論性能は最前線のオープンモデルに近づいています。DeepSeekV3.2-Speciale-671B-A37B に次ぐ、2025 年の国際数学オリンピック（IMO）、国際情報オリンピック（IOI）、ICPC 世界決勝戦でゴールドメダル級の性能を達成した、オープンウェイトLLMの2例目であり、パラメータ数は従来比20分の1程度で、驚くほど高い知能密度を示します。 Nemotron-Cascade 1 とは対照的に、主要な技術的進歩は以下のとおりです。厳選されたデータセットに対する SFT の後、Cascade RL を大幅に拡張し、推論とエージェント的領域のはるかに広いスペクトルをカバーします。さらに、Cascade RL プロセス全体にわたって、各ドメインに対して最も強力な中間教師モデルからのマルチドメインのオンポリシー蒸留を導入し、ベンチマークの回帰を効率的に回復しつつ、途中での強力な性能向上を維持できるようにします。モデルのチェックポイントとトレーニングデータのコレクションを公開します。

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

Nemotron-Cascade 2: Cascade RLとマルチドメインのオンポリシー蒸留によるポストトレーニングLLMs

要点

Abstract

関連記事

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer