| https://huggingface.co/ggml-org/NVIDIA-Nemotron-3-Nano-Omni NVIDIA Nemotron 3 Nano Omni は、動画、音声、画像、テキストの理解を統合するマルチモーダルの大規模言語モデルであり、企業レベルの Q&A、要約、文字起こし、ドキュメントインテリジェンスのワークフローを支援します。Nemotron Nano ファミリーを拡張し、統合された動画+音声の理解、グラフィカルユーザーインターフェース(GUI)、光学文字認識(OCR)、音声文字起こし機能を備えることで、会議の録画、M&E のアセット、トレーニングビデオ、複雑なビジネスドキュメントなどの豊富な企業コンテンツをエンドツーエンドで処理できるようにします。NVIDIA Nemotron 3 Nano Omni は、Nemotron モデルファミリーの一部として NVIDIA により開発されました。 このモデルは商用利用可能です。 このモデルは、Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct、および gpt-oss-120b を用いて改善されました。詳細については、以下の「トレーニングデータセット」セクションをご覧ください。 [リンク] [コメント] |
llama.cpp(ggml-org)におけるPR #22481:danbev による Nemotron Nano 3 Omni の変換サポート追加
Reddit r/LocalLLaMA / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- ggml-org/llama.cpp リポジトリにおいて、NVIDIA のマルチモーダルモデル「Nemotron 3 Nano Omni」の変換サポートを追加する pull request(PR)が提案されています。
- Nemotron 3 Nano Omni は、動画・音声・画像・テキストを統合して理解し、企業向けのQ&A、要約、文字起こし、ドキュメントインテリジェンスといった業務ワークフローを支えることを目的としています。
- 統合的な「動画+音声」理解、GUI、OCR、音声文字起こしといった機能を備え、会議録や研修動画、複雑なビジネス文書などのリッチなコンテンツをエンドツーエンドで処理できるとされています。
- 本投稿では、このモデルが商用利用可能であり、改善には複数のQwenモデルや gpt-oss-120b を用いた学習が関与した旨が述べられています。
- この変更は主に、llama.cpp エコシステムでモデルをローカル実行/展開したい実務者に影響し、モデル変換と利用を容易にします。


