NvidiaのNemotron-Cascade 2、3Bの有効パラメータで数学・コーディングの金メダルを獲得—そして事後学習レシピがオープンソース化

VentureBeat / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • NvidiaはNemotron-Cascade 2をリリースしました。これは30BのオープンウェイトMixture-of-Expertsモデルで、推論時に有効化されるのはわずか3Bパラメータですが、それにもかかわらずIMO、IOI、ICPC世界決勝で金メダルを獲得しています。
  • 同社の技術レポートでは、モデルサイズやデータ量を単にスケールするだけでなく、事後学習(post-training)が大きな品質向上をもたらし得ると主張しています。Nemotron-Cascade 2は、同じ基盤ファミリを用いながらも、Nvidiaのより小規模・より大規模のNemotronベースラインを上回ったのです。
  • Nvidiaは、事後学習パイプラインであるCascade RLの提供(「Cascade RL post-training recipe」)をオープンソース化しました。これにより、ゼロから学習することなく、領域特化型の推論システムを構築するためのエンドツーエンドで再現可能な設計図を提供します。
  • Cascade RLは、領域ごとにRLの段階を順次(例:指示追従→マルチドメインRL→蒸留→RLHF→長文コンテキストRL→コードRL→ソフトウェアエンジニアリングに重点を置いたステップ)で学習することで、致命的な忘却(catastrophic forgetting)を減らすことを目的としています。

AI開発における従来の前提はシンプルでした。つまり、より大規模なモデルをより多くのデータで学習すれば、より良い結果が得られるという考えです。Nvidiaの最新リリースは、この「サイズが大きいほど良い」という前提に真正面から挑みます。そして、その裏にある学習(トレーニング)レシピは、モデルそのもの以上にエンタープライズのAIチームにとって重要になるかもしれません。オープンウェイトモデルのCascade RLによるポストトレーニング(事後学習)パイプラインは、Nvidiaの技術レポートで詳述されており、ゼロから学習せずにドメイン固有の推論システムを構築するための、再現可能な設計図(ブループリント)を企業チームに提供します。

Nemotron-Cascade 2は、30BのオープンウェイトMixture-of-Experts(MoE)モデルで、推論時に有効化されるのはわずか3Bパラメータです。このコンパクトな規模にもかかわらず、世界でも最も難度の高い3つの競技で金メダル級の性能を達成しました。具体的には、2025年の国際数学オリンピック(IMO)、国際情報オリンピック(IOI)、ICPCワールドファイナルです。DeepSeek-V3.2-Speciale(パラメータ数が20倍のモデル)に続く、2番目のオープンモデルがこの領域に到達した例でもあります。

なぜポストトレーニングが本当の競争優位になりつつあるのか

大規模言語モデルをスクラッチから事前学習(プレトレーニング)するのは非常にコストがかかります。最前線(フロンティア)モデルでは、数千万〜数億ドル規模になる可能性があります。Nemotron-Cascade 2は、Nvidiaの既存のNemotron-3-Nanoと同じベースモデルから始まるにもかかわらず、ほぼすべてのベンチマークでそのモデルを上回り、また多くの場合、有効化されるパラメータが4倍のモデルであるNvidia自身のNemotron-3-Superよりも上回ります(Nvidiaの技術レポートによる)。その差は完全にポストトレーニングのレシピにあります。

エンタープライズのチームにとっての戦略的な示唆は次のとおりです。必ずしも、より大きく、より高価なベースモデルが必要なわけではありません。すでに持っているベースの上に重ねる「より良い学習(トレーニング)パイプライン」が必要なのかもしれません。Cascade RLとMOPDは、その課題に対する具体的で再現可能なアプローチを示しています。

Cascade RLの解説:壊滅的忘却を避ける逐次ドメイン学習

強化学習(RL)は、LLMに推論を学習させるための支配的な手法になっています。課題は、複数のドメイン(数学、コード、指示追従、エージェント的タスクなど)を同時に学習すると、しばしば干渉が起きることです。あるドメインの性能を高めると、別のドメインの性能が低下します。これは、マルチタスク機械学習で長年知られている「壊滅的忘却(catastrophic forgetting)」という問題です。

Cascade RLは、すべてを混ぜ合わせるのではなく、RLの段階をドメインごとに順番に(逐次的に)学習することでこの問題に対処します。Nemotron-Cascade 2は、特定の順序に従います。まず指示追従のRL、次にマルチドメインRL(STEMの質問、ツール呼び出し、構造化出力を含む)、次にオンポリシー・蒸留、次に人間の嗜好( preference )に整合させるためのRLHF(RL with Human Feedback)、その後長文コンテキストのRL、次にコードRL、最後にソフトウェアエンジニアリングRLです。

Nvidiaの技術レポートによれば、このアプローチを実用的にしているのは3つの特性です。第一に、ドメイン固有のRL段階は壊滅的忘却に対して耐性があることが分かっています。コードの学習が数学の性能を落とすことは稀で、場合によってはむしろ向上します。第二に、各段階が単一ドメインで学習されるため、ハイパーパラメータや学習カリキュラムを、そのドメイン固有の特性に合わせて調整でき、結果として全体の学習がより良くなります。第三に、単一ドメイン内での応答は長さや検証コストが似通う傾向があるため、計算資源の利用効率が、混合ドメイン学習より大幅に高くなります。

また、順序自体は固定ではありません。モデルの振る舞いに依存します。Nemotron-Cascade 2のチームは、指示追従RLは最初に来るべきだと見つけました(後で回復可能な一方で、人間の嗜好整合と衝突しうるため)。そして報告書によれば、コードRLとソフトウェアエンジニアリングRLは、最終段階として行うのが最も効果的です。

エンタープライズのチームにとっての意味は明確です。複数の能力にわたってRLでモデルを改善したい場合、注意深く順序を設計して逐次的に学習するほうが、すべてを一度に学習しようとするよりも良い結果が得られる可能性があります。

MOPD:自分自身の学習チェックポイントを教師として再利用する

注意深い逐次順序を採っても、モデルが多数のRL段階を通過する中で性能のドリフト(揺れ)はある程度避けられません。Nvidiaの解決策はMulti-Domain On-Policy Distillation(MOPD)です。これはCascade RLパイプラインの途中に挿入され、能力のバランスを取り戻すための手法です。

このアプローチは次のように機能します。モデルが異なるRL段階を経ていく中で、特定のドメインにおける最良の中間チェックポイントがいくつか現れます。数学のチェックポイントはSFT(教師あり微調整)後が最も強いかもしれませんし、指示追従のチェックポイントはIF-RL後が最も強いかもしれません。MOPDは、各ドメインに対して最良の中間チェックポイントを選び、それを「教師(teacher)」として用い、知識を学生モデル(student)に蒸留(distill)します。

重要なのは、これらの教師が外部モデルではないことです。同じ学習実行(トレーニングラン)から得られ、同じトークナイザとアーキテクチャを共有しています。これにより、まったく異なるモデル系列から蒸留するときに発生する分布不一致の問題がなくなります。

Nvidiaの技術レポートによれば、MOPDはシーケンスではなくトークンのレベルで機能するため、結果ベースの報酬によるRL(GRPOなど)よりも大幅にサンプル効率が高いとされています。NvidiaチームはAIME 2025の数学ベンチマークで、MOPDが30回の最適化ステップ以内に教師レベルの性能を回復したのに対し、標準的なGRPO(Group Relative Policy Optimization)はより多くのステップを要してより低いスコアに到達したと報告しています。また、人間の嗜好整合のArenaHardベンチマークでは、MOPDが52ステップでハードプロンプトに対して85.5を達成したのに対し、RLHFは160ステップで80.7でした。

ベンチマークの全体像:推論では優勢、トレードオフは正直に

推論中心のベンチマークでの結果は目を引きます。LiveCodeBench v6(競技プログラミング系プラットフォームの問題を含むコーディングベンチマーク)ではNemotron-Cascade 2は87.2を獲得し、Qwen3.5-35B-A3B(74.6)、Qwen3.5-397B-A17B(83.6)、さらにはKimi-K2.5-1T(85.0)を上回りました。HMMT February 2025(厳密な数学競技ベンチマーク)では94.6で、多くの場合はその数倍のサイズのモデルと同程度、ほぼ互角です。アラインメント品質のArenaHard v2では83.5に到達し、同クラスの競合を大きく引き離しています。ツール統合型の推論を有効にすると、AIME 2025の性能は98.6まで上がります。なお、すべてのベンチマークスコアはNvidiaが自己申告しており、独立に検証されたものではありません。

技術レポートは弱点についても率直です。MMLU-Pro(79.8 vs 85.3)やGPQA-Diamond(76.1 vs 84.2)のような知識集約型ベンチマークでは、Qwen3.5-35B-A3Bに対して性能が劣ります。また、BFCL v4やτ²-Benchといったいくつかのエージェント的ベンチマークでも同様です。著者らは将来の課題として、より強力な知識集約型の事前学習と、エージェント的RLが必要だと明確に述べています。

この正直さは実務者にとって重要です。本モデルは、深い推論と指示追従に最適化されています。一般的な知識の検索や、複雑なマルチターンのエージェント相互作用のためではありません。チームは「一律に上回る」と仮定せず、自分たちの用途に対して評価すべきです。

エンタープライズAIチームがこのレシピから得られるもの

この研究から得られるいくつかの設計パターンは、エンタープライズのポストトレーニングにそのまま適用できます。Cascade RLにおける逐次的なドメイン順序により、チームはパイプライン全体を作り直さずに新しい能力を追加できます。これは、素早く反復する必要がある組織にとって重要な特性です。さらにMOPDは、中間チェックポイントをドメイン固有の教師として使うことで、費用のかかる外部教師モデルを用意する必要をなくしています。チームは自分たちの最良のスナップショットから蒸留できます。

学習セットアップ自体も注目に値します。Cascade RLでは、NvidiaのオープンソースNemo-RLリポジトリに基づき、厳密なオンポリシー学習でKLペナルティなしのGRPOを利用しています。コードRLでは、3,500件の難しめでフィルタリング済みの問題だけを使用したとのことです。

全体像:設計原則としての「インテリジェンス密度」

Nemotron-Cascade 2は「インテリジェンス密度」へのより大きな潮流の一部です。つまり、有効化されるパラメータあたりに最大限の能力を詰め込むという考え方です。DeepSeekのMoEモデル、QwenのA3Bバリエーション、そして今はNvidiaのCascadeシリーズはいずれも、「最も能力の高い推論モデルが必ずしも最大サイズとは限らない」未来を示唆しています。

エンタープライズでの導入において、これは非常に大きな意味を持ちます。有効化されるパラメータが3Bのモデルなら、70Bの密なモデルに比べて、コストもレイテンシも一部の負担で提供できます。Nvidiaの結果は、Cascade RLやMOPDのようなポストトレーニング手法が、対象ドメインにおいて性能ギャップを埋められる可能性を示しています。その結果、フロンティア級インフラのコストなしに、強力な推論能力を持つシステムを導入するための道筋が得られます。

残る未解決の問いは、このアプローチがどこまで一般化できるかです。Cascade RLがうまく機能するのは、検証可能な報酬を持つドメインです。数学は正解があり、コードはテストケースがあり、指示追従にはルールベースのチェッカーがあります。しかし、検証が曖昧になりやすい、よりオープンエンドなエンタープライズのタスクにまで拡張できるかは、現在も活発な研究課題です。構造化された問題に対して深い推論が必要なシステム(金融モデリング、科学計算、ソフトウェアエンジニアリング、コンプライアンス分析など)を構築するチームにとって、Nvidiaの技術レポートは、これまでに公開されたポストトレーニング手法としてはより詳細な部類に入る方法論の一つを提供しています。