Nemotron-Cascade 2: Cascade RLとマルチドメインのオンポリシー蒸留によるポストトレーニングLLMs
arXiv cs.CL / 2026/3/20
📰 ニュースSignals & Early TrendsModels & Research
要点
- Nemotron-Cascade 2は、オープンウェイトの30B MoEモデルで、3Bの活性化パラメータを有し、強力な推論能力とエージェント的能力を提供します。
- コンパクトなサイズにもかかわらず、数学的推論とコーディング推論の分野で最先端のオープンモデルに迫りつつあり、パラメータ数は約20分の1であると主張しています。
- 技術的進展として、Cascade RLをより広い推論およびエージェント的ドメインを対象に拡張すること、及び成果を維持するためのトップ中間教師モデルからのマルチドメインOn-Policy蒸留を含みます。
- 著者らは再現性とより広い普及のため、モデルのチェックポイントとトレーニングデータを公開しています。
関連記事
EU AI Act適合性のために11,529台のMCPサーバをスキャンしました
Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA