NVIDIA、視覚・音声・言語を統合する「Nemotron 3 Nano Omni」モデルを発表—最大9倍効率的なAIエージェントへ

Nvidia AI Blog / 2026/4/29

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • NVIDIAは、視覚・音声・言語の別々のモデルを使い分ける従来のAIエージェントの課題を解消する「Nemotron 3 Nano Omni」を発表しました。
  • Nemotron 3 Nano Omniは、動画・音声・画像・テキストを単一のオープンなマルチモーダルモデルとして統合し、より高速で賢い応答と高度な推論を実現するとしています。
  • 同モデルは、複雑なドキュメント理解や動画・音声理解の分野で複数のリーダーボードを上回る精度と低コストを強みとしており、企業の実運用への道筋を提供すると述べています。
  • 既にAible、ASI、Eka Care、Foxconn、Palantirなど多数の企業が導入・評価を進めているとされています。
AIエージェントシステムは現在、視覚・音声・言語のために別々のモデルを扱っており、それらのモデル間でデータを受け渡す際に時間と文脈を失ってしまいます。今回発表されたNVIDIA Nemotron 3 Nano Omniは、これらの機能を1つのシステムに統合するオープンなマルチモーダルモデルであり、[…]

この記事の続きは原文サイトでお読みいただけます。

原文を読む →