Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
arXiv cs.LG / 4/15/2026
📰 NewsDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
Key Points
- Nemotron 3 Superは、MambaとTransformerのハイブリッドにMixture-of-Experts(LatentMoE)を組み合わせた120B級(活性12B)のモデルとして、事前学習・後学習・量子化までを含めてarXivで概要が公開された。
- NVFP4での事前学習や、MTP層によるnative speculative decodingを通じた推論加速など、効率と推論性能を重視した設計が示されている。
- 25兆トークンでの事前学習の後、SFTとRLによる後学習が行われ、最大1Mコンテキストに対応しつつ一般的ベンチマークで同等精度を狙っている。
- GPT-OSS-120BおよびQwen3.5-122Bに対して、推論スループットで最大2.2倍および7.5倍の向上が報告されている。
- 学習データやベース/後学習/量子化チェックポイントがHugging Faceでオープンソースとして公開される点が大きなポイントである。




