長期的なタスク、たとえばソフトウェアエンジニアリングやサイバーセキュリティのトリアージに対応するよう設計されたマルチエージェント・システムは、標準のチャットより最大で15倍ものトークン量を生成する可能性があり、エンタープライズ業務の費用対効果を脅かします。
しかし本日、Nvidiaはこの問題の解決を図るべく、Nemotron 3 Superのリリースという1200億パラメータのハイブリッドモデルを発表しました。ウェイトはHugging Faceに公開されています。
状態空間モデル、トランスフォーマー、そして新しい「潜在的(Latent)」Mixture-of-Experts設計といった異質なアーキテクチャの思想を統合することにより、Nvidiaはエージェントワークフローに必要な専門的な深さを、密な推論モデルにありがちな肥大化を避けつつ提供しようとしており、公開ウェイトのほとんどは商用利用可能です。
三重のハイブリッドアーキテクチャ
Nemotron 3 Superの中核には、メモリ効率と精密な推論のバランスを取る高度なアーキテクチャの三位一体があります。モデルはHybrid Mamba-Transformerバックボーンを採用し、Mamba-2層を戦略的なTransformerアテンション層と交互に配置します。
エンタープライズの実運用における影響を理解するには、「干し草の中の針」問題を考えてみてください。Mamba-2層は「高速移動」高ウェイ網のように機能し、ほとんどのシーケンス処理を線形時間計算量で処理します。これにより、KVキャッシュのメモリ使用量が爆発的に増大することなく、100万トークンの大規模なコンテキストウィンドウを維持できます。しかし、純粋な状態空間モデルは連想リコールに苦労することが多いです。
この問題を解決するために、NvidiaはTransformerアテンション層を戦略的に「グローバルなアンカー」として挿入し、コードベースや財務報告の山の中に埋もれた特定の事実を正確に検索できるようにしています。
バックボーンを越えて、モデルはLatent Mixture-of-Experts (LatentMoE)を導入します。従来のMixture-of-Experts(MoE)設計は、トークンを専門家にそのまま隠れ次元でルーティングするため、モデルが大規模化すると計算上のボトルネックを生み出します。LatentMoEは、専門家へルーティングする前にトークンを圧縮空間に投影することでこれを解決します。
この「専門家圧縮」により、同じ計算コストで4倍の専門家を参照できるようになります。この粒度の細かさは、1回の対話内でPythonの文法、SQLの論理、および対話的推論の切り替えを行う必要があるエージェントにとって不可欠です。
さらにモデルを加速するのがMulti-Token Prediction (MTP)です。標準のモデルが次の1トークンを予測するのに対し、MTPは複数の将来のトークンを同時に予測します。これは「組み込みの下書きモデル」として機能し、コードやツール呼び出しのような構造化生成タスクに対して、ネイティブな推測デコードを通じて最大で3倍の実世界時間のスピードアップを実現します。
Blackwellの優位性
エンタープライズにとって、Nemotron 3 Superの最も重要な技術的飛躍は、Nvidia Blackwell GPUプラットフォームへの最適化です。NVFP4(4ビット浮動小数点)でネイティブに事前学習することにより、Nvidiaはプロダクションの効率性において画期的な成果を達成しました。
Blackwell上では、以前のHopperアーキテクチャで動作する8ビットモデルより推論が4倍速く、精度の低下はありません。
実際のパフォーマンス面では、Nemotron 3 Superはエージェント的推論のための専門的ツールです。
現在、DeepResearch Benchという大規模文書集合に跨る多段階リサーチ能力を測定するベンチマークでNo.1の座を獲得しています。
ベンチマーク | Nemotron 3 Super | Qwen3.5-122B-A10B | GPT-OSS-120B |
一般知識 | |||
MMLU-Pro | 83.73 | 86.70 | 81.00 |
推論 | |||
AIME25 (no tools) | 90.21 | 90.36 | 92.50 |
HMMT Feb25 (no tools) | 93.67 | 91.40 | 90.00 |
HMMT Feb25 (with tools) | 94.73 | 89.55 | — |
GPQA (no tools) | 79.23 | 86.60 | 80.10 |
GPQA (with tools) | 82.70 | — | 80.09 |
LiveCodeBench (v5 2024-07↔2024-12) | 81.19 | 78.93 | 88.00 |
SciCode (subtask) | 42.05 | 42.00 | 39.00 |
HLE (no tools) | 18.26 | 25.30 | 14.90 |
HLE (with tools) | 22.82 | — | 19.0 |
エージェント | |||
Terminal Bench (hard subset) | 25.78 | 26.80 | 24.00 |
Terminal Bench Core 2.0 | 31.00 | 37.50 | 18.70 |
SWE-Bench (OpenHands) | 60.47 | 66.40 | 41.9 |
SWE-Bench (OpenCode) | 59.20 | 67.40 | — |
SWE-Bench (Codex) | 53.73 | 61.20 | — |
SWE-Bench Multilingual (OpenHands) | 45.78 | — | 30.80 |
TauBench V2 | |||
Airline | 56.25 | 66.0 | 49.2 |
Retail | 62.83 | 62.6 | 67.80 |
Telecom | 64.36 | 95.00 | 66.00 |
Average | 61.15 | 74.53 | 61.0 |
BrowseComp with Search | 31.28 | — | 33.89 |
BIRD Bench | 41.80 | — | 38.25 |
Chat & Instruction Following | |||
IFBench (prompt) | 72.56 | 73.77 | 68.32 |
Scale AI Multi-Challenge | 55.23 | 61.50 | 58.29 |
Arena-Hard-V2 | 73.88 | 75.15 | 90.26 |
Long Context | |||
AA-LCR | 58.31 | 66.90 | 51.00 |
RULER @ 256k | 96.30 | 96.74 | 52.30 |
RULER @ 512k | 95.67 | 95.95 | 46.70 |
RULER @ 1M | 91.75 | 91.33 | 22.30 |
Multilingual | |||
MMLU-ProX (avg over langs) | 79.36 | 85.06 | 76.59 |
WMT24++ (en→xx) | 86.67 | 87.84 | 88.89 |
また、実用的なスループットにおいて、gpt-oss-120Bを最大2.2倍、Qwen3.5-122Bを最大7.5倍上回る高負荷環境でのスループット優位性を示しています。
カスタム「オープン」ライセンス — 商用利用だが重要な留意点あり
Nemotron 3 SuperをNvidia Open Model License Agreementの下でリリースすることは、エンタープライズ導入に対して寛大な枠組みを提供しますが、MITやApache 2.0のような純粋なオープンソースライセンスとは異なる独自の「セーフガード」条項が含まれています。
エンタープライズ向けの主要条項:
商用利用: ライセンスはモデルが「商用利用可能」であることを明示し、モデルを基にした製品を販売・配布する永久的・全世界的・ロイヤリーフリーのライセンスを付与します。
出力物の所有: Nvidiaはモデルによって生成された出力物に対する権利を主張せず、これらの出力物とその所有権は全て利用者の責任となります。
派生作品: 企業は「Derivative Models」(ファインチューニング済みのバージョン)を作成・ ownershipすることが許されますが、必要な帰属表示を含める必要があります: 「Nvidia Open Model Licenseの下でNvidia Corporationによってライセンスされています」
「レッドライン」:
ライセンスには、製品チームが監視すべき2つの重要な終了条件があります:
セーフティ・ガードレール: ユーザーがモデルの「ガードレール」(技術的制約や安全性のハイパーパラメータ)を回避したり抵触したりする一方で、適切な用途に対応する「実質的に類似した」代替を実装しない場合、ライセンスは自動的に終了します。
訴訟トリガー: ユーザーがモデルが自社の知的財産を侵害していると主張して著作権や特許の訴訟を提起した場合、モデルの使用ライセンスは直ちに終了します。
この構造は、Nvidiaが商用エコシステムを育成しつつ、"IPトローリング"を防ぎ、悪用目的でモデルの安全機能が奪われないようにする役割を果たします。
『チームは本当に仕上げた』
このリリースは開発者コミュニティ内で大きな話題を呼んでいます。NvidiaのSenior Product Research EngineerであるChris Alexiukは、X上の@llm_wizardとして、ローンチを「SUPER DAY」と称賛し、モデルの速度と透明性を強調しました。「モデルはFAST。モデルはSMART。これまで作成した中で最もオープンなモデルだ。」と投稿し、ウェイトだけでなく10兆トークンの訓練データとレシピの公開も強調しました。
業界の採用はこの熱意を反映しています:
クラウドとハードウェア: このモデルはNvidia NIMマイクロサービスとして展開され、オンプレミスでDell AI FactoryやHPEを介して動作するほか、Google Cloud、Oracle、そして近々AWSとAzureにも展開されます。
プロダクションエージェント: CodeRabbit(ソフトウェア開発)やGreptileのような企業が大規模なコードベース分析を処理するためにモデルを組み込み、SiemensやPalantirのような産業リーダーが製造業とサイバーセキュリティにおける複雑なワークフローを自動化するために展開しています。
Kari Briski、NvidiaのAIソフトウェア担当副社長は次のように指摘しています。「企業がチャットボットを超えてマルチエージェントアプリケーションへ移行する際、コンテキストの爆発に直面する。」
Nemotron 3 Superはその爆発へのNvidiaの答えであり、1200億パラメータのシステムが持つ「知恵」と、はるかに小さなスペシャリストの運用効率を両立させたモデルです。エンタープライズにとってのメッセージは明確です。思考コストがついに低下しつつある、ということです。