Nemotron 3 Nano Omni：効率的でオープンなマルチモーダル・インテリジェンス

arXiv cs.LG / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

Nemotron 3 Nano Omniは、新たに登場したマルチモーダルモデルで、テキストに加えて画像・動画・音声をネイティブに入力できる。
このモデルは、アーキテクチャ、学習データ、学習レシピの改善により、あらゆるモダリティでNemotron Nano V2 VLに対して一貫した精度向上を達成したとされる。
実世界のドキュメント理解、長時間の音声・動画理解、エージェンティックなコンピュータ利用において優れた性能を報告している。
効率的なNemotron 3 Nano 30B-A3Bのバックボーン上に構築され、マルチモーダルのトークン削減技術によって、同規模の他モデルより推論のレイテンシを下げ処理量を高めるとしている。
モデルのチェックポイントをBF16・FP8・FP4形式で公開し、さらに学習データとコードベースの一部も提供して、研究開発の促進を図る。

要旨: 我々は、Nemotron マルチモーダルシリーズの最新モデルであり、テキスト、画像、動画に加えて音声入力をネイティブにサポートする初のモデルである Nemotron 3 Nano Omni を紹介します。Nemotron 3 Nano Omni は、アーキテクチャ、学習データ、レシピの進歩によって可能になったことにより、すべてのモダリティにおいて、先行モデルである Nemotron Nano V2 VL に対して一貫した精度向上を提供します。とりわけ Nemotron 3 は、実世界の文書理解、長時間の音声—動画の理解、エージェントによるコンピュータ利用において、先行する成果を実現しています。高効率な Nemotron 3 Nano 30B-A3B のバックボーンに基づき、Nemotron 3 Nano Omni はさらに、革新的なマルチモーダル・トークン削減技術を取り入れることで、同程度のサイズの他のモデルに比べて、推論のレイテンシを大幅に低減し、スループットを高めます。研究開発をさらに促進するために、BF16、FP8、FP4 の形式でモデルのチェックポイント、ならびに学習データおよびコードベースの一部を公開します。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

AIエージェントのループ向けに作られたAPIテストツール

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

Nemotron 3 Nano Omni：効率的でオープンなマルチモーダル・インテリジェンス

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

AIエージェントのループ向けに作られたAPIテストツール

ik_llama.cpp が Qwen3.5 MTP をサポート開始

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ