NVIDIA Nemotron 3 Nano Omni を紹介:ドキュメント、音声、動画エージェント向けのロングコンテキストのマルチモーダル知能
- NVIDIA Nemotron 3 Nano Omni は、実世界のドキュメント分析、多数画像の推論、自動音声認識、長時間の音声・映像理解、エージェントによるコンピュータ利用、そして一般推論 のために構築された新しいオムニモーダル理解モデルです。
- 強力なビジョン・言語システムとしての Nemotron のマルチモーダル系列を拡張し、より広範な テキスト + 画像 + 動画 + 音声 モデルへと進化させています。
- Nemotron 3 Nano Omni は、MMlongbench-Doc、OCRBenchV2 のような複雑なドキュメント理解リーダーボードにおいて 業界トップクラスの精度 を提供します。さらに、WorldSense や DailyOmni のような動画・音声のリーダーボードでも先頭に立っています。音声理解のための VoiceBench で最高精度を達成し、MediaPerf. においてオープンな動画理解モデルの中で最も費用対効果が高いと位置付けられています。
Nemotron Nano V2 VL をベースに、Nemotron 3 Nano Omni は大きな視覚的改善をもたらすと同時に、完全に新しい音声および動画+音声の能力を追加しました。さらに、多くの領域でオープンウェイトのオムニモデルである Qwen3-Omni を上回っています。
| タスク | ベンチマーク | Nemotron 3 Nano Omni | Nemotron Nano V2 VL | Qwen3-Omni 30B-A3B |
|---|---|---|---|---|
| ドキュメント理解 | OCRBenchV2-En | 65.8 | 61.2 | - |
| MMLongBench-Doc | 57.5 | 38.0 | 49.5 | |
| CharXiv 推論 | 63.6 | 41.3 | 61.1 | |
| GUI | ScreenSpot-Pro | 57.8 | 5.5 | 59.7 |
| OSWorld | 47.4 | 11.0 | 29.0 | |
| 動画理解 | Video-MME | 72.2 | 63.0 | 70.5 |
| 動画+音声理解 | WorldSense | 55.4 | - | 54.0 |
| DailyOmni | 74.1 | - | 73.6 | |
| 音声インタラクション | VoiceBench | 89.4 | - | 88.8 |
| ASR | HF Open ASR(値が小さいほど良い) | 5.95 | - | 6.55 |
効率性のハイライト
同じ対話性(interactivity)を持つ他のオープンなオムニモデルと比較して、Nemotron 3 Nano Omni は、マルチドキュメントのユースケースにおいてシステム効率が7.4倍高く、動画のユースケースにおいてシステム効率が9.2倍高いです
図1.固定された1ユーザーあたりの対話性閾値(tokens/sec/user)で、各モデルがマルチドキュメントおよび動画ユースケースに対して持続的に提供できる総システムスループット
Nemotron 3 Nano Omni が設計上対応している用途
概要として、Nemotron 3 Nano Omni は5つのクラスのワークロードを対象にしています:
1. 実世界ドキュメントの分析
これは単なるOCRの話ではありません。モデルは、レイアウト、表、図、数式、セクション構造、ページをまたぐ参照の理解に依存する、長くてごちゃごちゃした高価値の文書に適した形で配置されています。契約書、技術論文、レポート、マニュアル、複数ページのフォーム、コンプライアンス用のパケットなどを想定してください。モデルは100ページ以上の文書を扱えます。
2. 自動音声認識
Nemotron 3 Nano Omni には、高品質な文字起こしを多様な音声条件で実現する強力な音声理解機能が含まれています。話者が入れ替わる長尺音声、さまざまなアクセント、そしてバックグラウンドノイズのある音声にも対応します。これらの機能は、より広範なワークフローに統合でき、話し言葉の内容を文字起こしし、分析し、要約、質問応答、クロスモーダル推論のようなタスクのために他のモダリティと組み合わせることが可能になります。
3. 長尺の音声・動画理解
多くの企業や開発者のワークフローは、音声と視覚の混在した証拠に依存しています。ナレーション付きのスクリーン録画、トレーニング動画、スライド付きの会議、チュートリアル、プロダクトデモ、カスタマーサポートの記録、そして長尺の動画アーカイブです。Nemotron 3 Nano Omni は、それらの入力を共同で推論できるように作られています。
4. エージェント型コンピューター利用
Nemotron 3 Nano Omni モデルは、エージェント型のコンピューター利用のために特別に学習されています。これにより、GUI(グラフィカル・ユーザー・インターフェース)環境でのタスク支援が可能になります。機能としては、スクリーンショットの解釈、ユーザーインターフェースの状態の監視、画面上の映像に推論を根拠づけること、そしてアクション選択やワークフローの自動化を支援することなどが含まれます。
5. 一般的なマルチモーダル推論
モデルは知覚以上のために設計されています。長いコンテキストウィンドウ、複数のモダリティ、構造化または準構造化された証拠にまたがる情報を統合する必要がある、推論負荷の高いタスクに優れています。複数ステップの推論を行い、計算を実行し、テキスト、画像、表、その他の入力からの信号をつなぎ合わせて、首尾一貫した裏付けのある回答に到達できます。
モデルアーキテクチャと主要な革新
Nemotron 3 Nano Omni は統一されたエンコーダー-プロジェクター-デコーダー設計を採用しています。言語のバックボーンは Nemotron 3 Nano 30B-A3B で、これに C-RADIOv4-H の視覚エンコーダーと、Parakeet-TDT-0.6B-v2 の音声エンコーダーを組み合わせています。モダリティ固有のエンコーダーは、軽量なプロジェクターを通じて LLM バックボーンに接続されます。
図 2. NVIDIA Nemotron 3 Nano Omni 30B-A3B のモデルアーキテクチャ
長いマルチモーダル文脈のためのハイブリッド Mamba-Transformer-MoE バックボーン
モデルのバックボーンは、3つの主要コンポーネントをインターリーブします。効率的な長文脈処理のための23 の Mamba セレクティブ状態空間層、条件付き容量のための共有エキスパートと、128 のエキスパート、トップ6 ルーティングを備えた23 の MoE 層、および強力なグローバル相互作用と表現力を維持するための6つのグループ化クエリ注意層です。
Nemotron 3 Nano Omni は、状態空間モデル、注意機構、MoE を統一的な設計で組み合わせ、長いマルチモーダル文脈に対して実用性を保ちながら、強力な推論性能を維持します。
高密度なドキュメント、チャート、画面に対するダイナミック解像度
視覚側では、Nemotron 3 Nano Omni は v2 モデルで使われていたタイル戦略を置き換え、ネイティブなアスペクト比でのダイナミック解像度処理を採用します。各画像は、可変数の 16×16 パッチで表現され、画像あたり最小 1,024 から最大 13,312 の視覚パッチを使います。正方形画像の場合、これはそれぞれ 512×512 と 1840×1840 に相当します。
この柔軟性は、高解像度で複雑な視覚入力、たとえば OCR を多用する文書、財務テーブル、スライド、研究図、スクリーンショット、GUI レイアウトの処理において重要です。特に、細部と全体構造の両方を同時に理解する必要がある場合に有効です。
動画に対する Conv3D による時間方向の圧縮
動画では、Nemotron 3 Nano Omni は専用のConv3D チューブレット埋め込みパスを使用します。各フレームを個別に埋め込むのではなく、ViT に入れる前に、連続する2つのフレームを 1つの「チューブレット」に融合します。これにより、言語モデルが注意を向ける必要のある視覚トークン数が半減します。これにより、同じトークン予算のままフレーム数を2倍にすることも、同じフレーム数のままトークン数を半分にすることもできます
EVS — 効率的なビデオサンプリング
EVSは重要な機能で、推論時に有効化されます。視覚エンコーダの後で冗長なビデオトークンを削除します。これにより、精度を維持しつつレイテンシを低減し、スループットを向上させます。ビデオの最初のフレームは完全に保持し、その後の各フレームについて、EVSは映像が変化している「動的」トークンを保持し、前のフレームから何も変わっていない「静的」トークンを削除します。これをConv3Dと組み合わせることで、優れた圧縮を実現します。Conv3Dは2つのフレームのペアからのトークンを1つに融合し、続いてEVSが冗長な静的情報を取り除きます。
ネイティブな音声入力(テキストの逐語転記だけではなく)
音声側は Parakeet-TDT-0.6B-v2 によって駆動され、独自の2層MLPプロジェクタを介してバックボーンに接続されます。音声は 16 kHz でサンプリングされ、モデルは 最大1,200秒(20分) までの入力で学習されます。一方でLLMの最大コンテキスト長は5時間以上をサポートします。
これは共有されたマルチモーダルのシーケンス内で、ネイティブな音声処理を可能にすることで、従来のVLMパイプラインからの転換を表しています。音声・視覚・テキストのトークンを共同でモデリングできるようになります。これは、ナレーション付きの画面録画、発話によって視覚的な意味が変わるビデオQ&A、長尺の説明資料や会議コンテンツ、そして時間的に根拠のあるマルチモーダル推論を必要とするタスクなどの状況で重要です。
軽量なモダリティ・プロジェクタと統一的なトークンのインターリーブ
各エンコーダは、エンコーダの特徴を共有埋め込み空間に写像する軽量な2層MLPプロジェクタを通じてLLMに接続されます。射影された後は、視覚・音声・テキストのトークンがインターリーブされ、共同で処理されます。
この設計により、システム全体はモジュール性を保ったまま、バックボーン内部で本格的なクロスモーダル推論を可能にします。
学習データ、インフラ、そしてシステムの物語
SFTの各段階は NVIDIA H100 上で学習されます。段階に応じて 32〜128ノード にスケールします。スタックは Megatron-LM、Transformer Engine、Megatron Energon を使用し、テンソル並列、エキスパート並列、シーケンス並列、長いコンテキスト段階向けのコンテキスト並列、オンライン・シーケンス・パッキング、選択的な活性化の再計算を行います。
SFT後の強化学習には、NeMo-RL および NeMo Gym(Megatronバックエンド)を使用します。RLインフラは B200 と H100 クラスタ にわたるRayベースの分散セットアップを用い、さらにマルチモーダルの重複排除も行うことで、繰り返しのロールアウトが画像・ビデオ・音声のメモリを増殖させないようにしています。
学習コードのかなりの部分をオープンソースとして公開します。
信頼できるマルチモーダル挙動を形作るためのRLの活用
Nemotron 3 Nano Omni では、マルチ環境のテキストとオムニ(omni)学習を導入します。テキストRLの学習段階は Nemo-Gym の多様な環境で行われ、モデルが、ツール呼び出し、コードの執筆、多段の計画などの一連の行動を実行し、検証可能な基準を満たす能力を評価します。
オムニRLは、画像、動画、音声、テキストにわたって、統一された枠組みの中で推論できるようにモデルを訓練します。単一モダリティから完全にマルチモーダルなシナリオまでのタスクを対象にします。多様な検証者(verifier)スイートが、複数選択式、数学、GUI のグラウンディング、ASR といった形式での出力を評価しつつ、意図的に答えられないケースも含めます。これは、証拠が不十分なときに幻覚をでっち上げるのではなく、回答を控えることをモデルに学習させるためです。
データとデータパイプライン
Nemotron 3 Nano Omni は、多様なモダリティにまたがる高品質な推論を重視する強化版データセットで訓練されています。タスクのカバレッジを大幅に拡張し、公開データセットが限られている複雑な推論シナリオ向けに合成データを導入しました。これを支えるため、スケーラブルな合成データ生成のために、タスク固有のマルチステージ・パイプラインを構築しています。
一例として、NeMo Data Designer を用いて、実世界の PDF の大規模コーパスから約 11.4M 件の合成 QA ペア(約 450 億トークン)を生成しました。このデータセットは、ポストトレーニングにおける長文書(long-context)での文書推論を強化するために使われ、MMLongBench-Doc における総合精度を 2.19× 改善します。
失敗分析や学んだ重要な教訓を含め、パイプラインの進化の全体を、私たちの Data Designer 開発者ノート で詳述しています。このノートには、文書理解用データセットを自分で構築するための出発点として使える 9 つの実行可能なパイプライン・レシピ も含まれています。
例となるワークフロー
例1:長い複数ページ文書の分析
Nemotron 3 Nano Omni は、財務報告書、学術論文、製品マニュアルなどの長文書を分析し、推論できます。次の例では、別の指標を計算するために、100ページ超の文書にわたって財務指標を取得しています。
図3:MMLongBench-Doc ベンチマークからの図式化された例
モデルには、次のように質問へ回答するよう指示しました。
与えられたすべての画像から情報を抽出し、その後、単語またはフレーズを1つ使って質問に答えてください。画像から答えを導き出せない場合は、「Not answerable」を返してください。
このモデルは、長文コンテキストの検索、構造化された抽出、表・グラフの読み取り、複数ページにまたがる推論を、すべて一度に行えます。
例2:映像+音声の理解
Nemotron-3 Nano Omni は、特定のシーンについてはローカルに、また動画全体にわたってはグローバルに、音声・映像の共同解析を行います。これにより、クロスモーダルな推論を必要とする複雑な質問に答えることができます。たとえば、音声であるトピックが言及されたちょうどそのタイミングに表示されている特定の映像を特定する、といったものです。
映像
質問
動画を見て、ナレーションを聞いてください。
1. 映像に映っている火災の対象は何の構造物で、修復プロジェクトにはいくらのお金が使われていましたか?
2. 目撃者が自身の経験を語るとき、どんな映像が短く表示されますか?
回答
1. 火災の対象となった構造物はノートルダム大聖堂で、約700万ドルの修復プロジェクトが進行していました。
2. 目撃者が自身の経験を語るとき、映像には、大聖堂が炎に包まれ濃い煙が立ちこめている様子、燃えている屋根の周囲を取り囲む足場、放水するためにはしごを使う消防士、川沿いから見物している人々の群衆、そしてパリのスカイラインを背景に燃え上がる建物の眺めが映し出されます。
例3:エージェント型のコンピューター利用/スクリーンショット推論
Nemotron 3 Omni は、エージェント型のコンピューター利用システムに統合して、ユーザーの意図を推論し、GUI要素を分析し、タスクを達成するためにアクションを実行できます。
モデルには、次のシステムプロンプトを備えたWeb環境へのアクセスが与えられました:
あなたはGUIエージェントです。あなたには指示、画面のスクリーンショット、そしてコンピューターに対するこれまでのやり取りが与えられます。タスクを完了するために一連のアクションを実行する必要があります。コンピューターのパスワードは {password} です。
各ステップごとに、この形式で応答してください:
{thought}
## Action:
{action}
## Code:
{code}
コードのセクションでは、コードは pyautogui コードであるか、または次の関数のいずれかをコードブロックでラップしたもののいずれかであるべきです:
- {"name": "computer.wait", "description": "インストール、実行中のコードなどのために、コンピューターが20秒待つようにします。", "parameters": {"type": "object", "properties": {}, "required": []}}
- {"name": "computer.terminate", "description": "現在のタスクを終了し、その完了ステータスを報告します", "parameters": {"type": "object", "properties": {"status": {"type": "string", "enum": ["success", "failure"], "description": "タスクのステータス"}, "answer": {"type": "string", "description": "タスクの回答"}}, "required": ["status"]}}
ユーザー指示
運転免許証の取得資格要件を見つけてください
モデルの応答:
上のGIFは、エージェントがユーザーの要求を満たすために行うアクションを示しています
- 「License & IDs」タブをクリックします
- 次に、ドロップダウンメニューから「Driver’s License」をクリックします
- 次に、左側の「Driver’s License Eligibility」をクリックします
- このページを下にスクロールしてから戻します
- 最後に、ユーザーに対して次の応答を生成します:
バージニア州DMVのWebサイトで、運転免許証の取得資格要件ページを正常に見つけました。このページには、運転免許証の取得資格に関する包括的な情報が含まれています:
**一般要件:**
- バージニア州連邦の居住者である必要があります
- 少なくとも16歳3か月以上である必要があります
**初めての運転者:**
- 州が承認した運転教育プログラムを修了する必要があります
- 道路技能テストを受ける少なくとも60日前に学習者許可(learner's permit)を取得する必要があります
- 学習者許可については、少なくとも15歳6か月以上である必要があります
- 年齢要件に例外はありません
**新しい居住者:**
- 仮居住者:6か月以内に免許を取得する必要があります
- 恒久的な居住者:1年以内に免許を取得する必要があります
**軍人:**
- バージニア州に駐在している現役の軍人
- 配偶者および扶養家族で、16歳3か月以上の者は有効な州外免許証で運転できます
- 車両が共同所有で、州外ナンバーを使用する場合、共同所有者全員が現役の軍人である必要があります
**州外の学生:**
- 認可されたバージニア州の学校に在籍するフルタイムの学生(雇用されていない)で、有効な州外免許証で運転できます
- 雇用されているフルタイムの学生は、車両に関する法律上、バージニア州の居住者とみなされます
**非居住者:**
- 一時的にバージニア州に居住している非居住者は、母国の免許証で最大6か月間運転できます
- 注:これは商用車の運転者には適用されません
- 収入を得る職に就くことになった場合、バージニア州の運転免許証を所持している必要があります
**身分および居住要件:**
- 身元の証明(DMV 141に記載された許容書類)
- 合衆国での適法な滞在の証明
- バージニア州の居住の証明
- 社会保障番号の証明
- 氏名変更の証明(該当する場合)
返却形式: {"translated": "翻訳されたHTML"}
追加のリソース:インタラクティブなドキュメントガイド、「運転免許証または身分証明カードを取得するための許容書類」(DMV 141)、およびスペイン語版。例4:複合ドキュメント + 図表 + ナレーションの推論
Nemotron-3 Nano Omniは、画像内に表示された図表や図形と、オーディオファイルを分析して、メディア間に共通点や相違点を生成します。
音声
質問
スライドの内容と、話された解説の両方を用いてください。
スピーカーが述べたもののうち、スライドに表示されていない追加のポイントをすべて挙げてください。
回答
スピーカーの解説と、スライドに表示されている視覚的内容に基づいて、スライドに明示的に示されていない、あるいはスライド内で詳述されていない追加のポイントは以下のとおりです:
* **トピック:** スピーカーは、ニューラルネットワークによるマルチタスク学習を取り上げると明確に述べています。一方で、スライドのタイトルは単に「Some notation」になっています(ただし、タスクの数学的定義は含まれています)。
* **出力の性質:** スピーカーは出力($y$)を、(例:tiger、tiger cat、lynx、catなどの)可能なラベルに対する確率分布として説明しています。これに対しスライドは、ベクトルを分布として明示せず、クラスラベルの棒グラフだけを表示しています。
* **具体的なタスク例(論文タイトル):** 入力が論文のタイトルであり、ニューラルネットワークの役割がその論文の長さを推定することだという、具体的な例を提示します。スライドには棒グラフの近くに「length of paper(論文の長さ)」が表示されていますが、論文タイトルがこれらの棒にどのように対応するのか、あるいは動物クラスを表すのかを視覚的に区別できるようには示されていません。
* **最適化手法:** スピーカーは、損失関数は通常確率的勾配降下法(stochastic gradient descent)または「お気に入りのオプティマイザ」を使って最適化されると述べます。これは、$
\mathcal{L}$を最小化する損失関数の定義しかないスライドに書かれていない手順です。
* **入力の多様性:** スピーカーは、入力は「幅広い非構造化入力」になり得ると述べ、具体的に画像とテキストに言及しています。スライドでは、構造化された入力である単一の画像が視覚的に表示されており、入力クラスには汎用の変数$x$が使われています。





