nvidia/NVILA-8B-HD-Video · Hugging Face

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースModels & Research

要点

  • NVILA-HD-Video は、最大 4K 解像度・1K フレームの動画の理解と質問への回答が可能な、8B パラメータのマルチモーダル LLM です。
  • AutoGaze を使用して ViT や LLM を実行する前に動画の冗長なパッチを削減します。経験的には、AutoGaze は動画内のトークン数を最大 100 倍削減し、ViT/LLM のレイテンシを最大 19 倍/10 倍改善します。
  • このモデルは VideoMME などのベンチマークで性能の向上を示し、HLVid のような高解像度長編動画ベンチマークで最先端の結果を達成します。
  • このモデルは研究開発のみのリリースで、Nvidia によって Hugging Face にホストされています。
nvidia/NVILA-8B-HD-Video · Hugging Face

NVILA-HD-Video は、最大 4K 解像度および 1K フレームの動画についての理解と質問への回答が可能な、8B パラメータのマルチモーダル LLM です。

具体的には、NVILA-HD-Video は AutoGaze を使用して、ViT または LLM を実行する前に動画内の冗長なパッチを削減します。経験的には、AutoGaze は動画内のトークン数を最大 100 倍削減でき、ViT/LLM のレイテンシを最大 19 倍/10 倍削減します。これにより NVILA-HD-Video は 4K 解像度・1K フレームの動画へ効率的にスケールし、VideoMME のようなベンチマークで性能の向上を達成し、同様に本研究で提案された高解像度長編動画ベンチマークである HLVid において最先端の性能を達成します。

このモデルは研究開発のみを目的としています。

投稿者 /u/jacek2023
[リンク] [コメント]