NVIDIA、視覚・音声・言語を統合する「Nemotron 3 Nano Omni」モデルを発表—最大9倍効率的なAIエージェントへ
Nvidia AI Blog / 2026/4/29
📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- NVIDIAは、視覚・音声・言語の別々のモデルを使い分ける従来のAIエージェントの課題を解消する「Nemotron 3 Nano Omni」を発表しました。
- Nemotron 3 Nano Omniは、動画・音声・画像・テキストを単一のオープンなマルチモーダルモデルとして統合し、より高速で賢い応答と高度な推論を実現するとしています。
- 同モデルは、複雑なドキュメント理解や動画・音声理解の分野で複数のリーダーボードを上回る精度と低コストを強みとしており、企業の実運用への道筋を提供すると述べています。
- 既にAible、ASI、Eka Care、Foxconn、Palantirなど多数の企業が導入・評価を進めているとされています。
AIエージェントシステムは現在、視覚・音声・言語のために別々のモデルを扱っており、それらのモデル間でデータを受け渡す際に時間と文脈を失ってしまいます。今回発表されたNVIDIA Nemotron 3 Nano Omniは、これらの機能を1つのシステムに統合するオープンなマルチモーダルモデルであり、[…]
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



