要旨: 我々は、Nemotron マルチモーダルシリーズの最新モデルであり、テキスト、画像、動画に加えて音声入力をネイティブにサポートする初のモデルである Nemotron 3 Nano Omni を紹介します。Nemotron 3 Nano Omni は、アーキテクチャ、学習データ、レシピの進歩によって可能になったことにより、すべてのモダリティにおいて、先行モデルである Nemotron Nano V2 VL に対して一貫した精度向上を提供します。とりわけ Nemotron 3 は、実世界の文書理解、長時間の音声—動画の理解、エージェントによるコンピュータ利用において、先行する成果を実現しています。高効率な Nemotron 3 Nano 30B-A3B のバックボーンに基づき、Nemotron 3 Nano Omni はさらに、革新的なマルチモーダル・トークン削減技術を取り入れることで、同程度のサイズの他のモデルに比べて、推論のレイテンシを大幅に低減し、スループットを高めます。研究開発をさらに促進するために、BF16、FP8、FP4 の形式でモデルのチェックポイント、ならびに学習データおよびコードベースの一部を公開します。
Nemotron 3 Nano Omni:効率的でオープンなマルチモーダル・インテリジェンス
arXiv cs.LG / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- Nemotron 3 Nano Omniは、新たに登場したマルチモーダルモデルで、テキストに加えて画像・動画・音声をネイティブに入力できる。
- このモデルは、アーキテクチャ、学習データ、学習レシピの改善により、あらゆるモダリティでNemotron Nano V2 VLに対して一貫した精度向上を達成したとされる。
- 実世界のドキュメント理解、長時間の音声・動画理解、エージェンティックなコンピュータ利用において優れた性能を報告している。
- 効率的なNemotron 3 Nano 30B-A3Bのバックボーン上に構築され、マルチモーダルのトークン削減技術によって、同規模の他モデルより推論のレイテンシを下げ処理量を高めるとしている。
- モデルのチェックポイントをBF16・FP8・FP4形式で公開し、さらに学習データとコードベースの一部も提供して、研究開発の促進を図る。



