Nemotron 3 Super: エージェント的推論のための、オープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル

arXiv cs.LG / 2026/4/15

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

Nemotron 3 Superは、MambaとTransformerのハイブリッドにMixture-of-Experts（LatentMoE）を組み合わせた120B級（活性12B）のモデルとして、事前学習・後学習・量子化までを含めてarXivで概要が公開された。
NVFP4での事前学習や、MTP層によるnative speculative decodingを通じた推論加速など、効率と推論性能を重視した設計が示されている。
25兆トークンでの事前学習の後、SFTとRLによる後学習が行われ、最大1Mコンテキストに対応しつつ一般的ベンチマークで同等精度を狙っている。
GPT-OSS-120BおよびQwen3.5-122Bに対して、推論スループットで最大2.2倍および7.5倍の向上が報告されている。
学習データやベース/後学習/量子化チェックポイントがHugging Faceでオープンソースとして公開される点が大きなポイントである。

要旨: 1200億（アクティブ120億）パラメータのハイブリッドMamba-Attention Mixture-of-ExpertsモデルであるNemotron 3 Superの、事前学習、事後学習、ならびに量子化について説明します。Nemotron 3 Superは、Nemotron 3ファミリーの中で初めて、1) NVFP4で事前学習されること、2) 精度をFLOP当たりおよびパラメータ当たりの両方で最適化する新しいMixture-of-ExpertsアーキテクチャであるLatentMoEを活用すること、3) ネイティブな推測デコーディングによる推論加速のためのMTP層を含むこと、を満たすモデルです。私たちはNemotron 3 Superを25兆トークンで事前学習し、その後、教師あり微調整（SFT）と強化学習（RL）による事後学習を行いました。最終モデルは最大100万のコンテキスト長に対応し、一般的なベンチマークで同等の精度を達成しつつ、GPT-OSS-120BおよびQwen3.5-122Bに比べて、それぞれ最大2.2倍および7.5倍の推論スループットを実現しています。Nemotron 3 Superのデータセットと、ベース、事後学習済み、および量子化済みのチェックポイントは、HuggingFaceでオープンソースとして公開されています。