| NVILA-HD-Video は、最大 4K 解像度および 1K フレームの動画についての理解と質問への回答が可能な、8B パラメータのマルチモーダル LLM です。 具体的には、NVILA-HD-Video は AutoGaze を使用して、ViT または LLM を実行する前に動画内の冗長なパッチを削減します。経験的には、AutoGaze は動画内のトークン数を最大 100 倍削減でき、ViT/LLM のレイテンシを最大 19 倍/10 倍削減します。これにより NVILA-HD-Video は 4K 解像度・1K フレームの動画へ効率的にスケールし、VideoMME のようなベンチマークで性能の向上を達成し、同様に本研究で提案された高解像度長編動画ベンチマークである HLVid において最先端の性能を達成します。 このモデルは研究開発のみを目的としています。 [リンク] [コメント] |
nvidia/NVILA-8B-HD-Video · Hugging Face
Reddit r/LocalLLaMA / 2026/3/12
📰 ニュースModels & Research
要点
- NVILA-HD-Video は、最大 4K 解像度・1K フレームの動画の理解と質問への回答が可能な、8B パラメータのマルチモーダル LLM です。
- AutoGaze を使用して ViT や LLM を実行する前に動画の冗長なパッチを削減します。経験的には、AutoGaze は動画内のトークン数を最大 100 倍削減し、ViT/LLM のレイテンシを最大 19 倍/10 倍改善します。
- このモデルは VideoMME などのベンチマークで性能の向上を示し、HLVid のような高解像度長編動画ベンチマークで最先端の結果を達成します。
- このモデルは研究開発のみのリリースで、Nvidia によって Hugging Face にホストされています。


