
Nvidiaは、テキスト、画像、動画、音声のためのオープンなマルチモーダルモデル「Nemotron 3 Nano Omni」をリリースしました。性能の高さもさることながら、学習データにも注目が集まります。学習データは、Qwen、GPT-OSS、Kimi、DeepSeek OCRなどから作られているとのことです。
この記事 Nemotron 3 Nano Omniで、Nvidiaが現代のマルチモーダルモデルに本当に何が投入されているのかを明かす は、The Decoder に最初に掲載されました。



