要旨: 1200億(アクティブ120億)パラメータのハイブリッドMamba-Attention Mixture-of-ExpertsモデルであるNemotron 3 Superの、事前学習、事後学習、ならびに量子化について説明します。Nemotron 3 Superは、Nemotron 3ファミリーの中で初めて、1) NVFP4で事前学習されること、2) 精度をFLOP当たりおよびパラメータ当たりの両方で最適化する新しいMixture-of-ExpertsアーキテクチャであるLatentMoEを活用すること、3) ネイティブな推測デコーディングによる推論加速のためのMTP層を含むこと、を満たすモデルです。私たちはNemotron 3 Superを25兆トークンで事前学習し、その後、教師あり微調整(SFT)と強化学習(RL)による事後学習を行いました。最終モデルは最大100万のコンテキスト長に対応し、一般的なベンチマークで同等の精度を達成しつつ、GPT-OSS-120BおよびQwen3.5-122Bに比べて、それぞれ最大2.2倍および7.5倍の推論スループットを実現しています。Nemotron 3 Superのデータセットと、ベース、事後学習済み、および量子化済みのチェックポイントは、HuggingFaceでオープンソースとして公開されています。
Nemotron 3 Super: エージェント的推論のための、オープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル
arXiv cs.LG / 2026/4/15
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- Nemotron 3 Superは、MambaとTransformerのハイブリッドにMixture-of-Experts(LatentMoE)を組み合わせた120B級(活性12B)のモデルとして、事前学習・後学習・量子化までを含めてarXivで概要が公開された。
- NVFP4での事前学習や、MTP層によるnative speculative decodingを通じた推論加速など、効率と推論性能を重視した設計が示されている。
- 25兆トークンでの事前学習の後、SFTとRLによる後学習が行われ、最大1Mコンテキストに対応しつつ一般的ベンチマークで同等精度を狙っている。
- GPT-OSS-120BおよびQwen3.5-122Bに対して、推論スループットで最大2.2倍および7.5倍の向上が報告されている。
- 学習データやベース/後学習/量子化チェックポイントがHugging Faceでオープンソースとして公開される点が大きなポイントである。




