nvidia/NVILA-8B-HD-Video · Hugging Face

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースModels & Research

共有:

要点

NVILA-HD-Video は、最大 4K 解像度・1K フレームの動画の理解と質問への回答が可能な、8B パラメータのマルチモーダル LLM です。
AutoGaze を使用して ViT や LLM を実行する前に動画の冗長なパッチを削減します。経験的には、AutoGaze は動画内のトークン数を最大 100 倍削減し、ViT/LLM のレイテンシを最大 19 倍/10 倍改善します。
このモデルは VideoMME などのベンチマークで性能の向上を示し、HLVid のような高解像度長編動画ベンチマークで最先端の結果を達成します。
このモデルは研究開発のみのリリースで、Nvidia によって Hugging Face にホストされています。

NVILA-HD-Video は、最大 4K 解像度および 1K フレームの動画についての理解と質問への回答が可能な、8B パラメータのマルチモーダル LLM です。

具体的には、NVILA-HD-Video は AutoGaze を使用して、ViT または LLM を実行する前に動画内の冗長なパッチを削減します。経験的には、AutoGaze は動画内のトークン数を最大 100 倍削減でき、ViT/LLM のレイテンシを最大 19 倍/10 倍削減します。これにより NVILA-HD-Video は 4K 解像度・1K フレームの動画へ効率的にスケールし、VideoMME のようなベンチマークで性能の向上を達成し、同様に本研究で提案された高解像度長編動画ベンチマークである HLVid において最先端の性能を達成します。

このモデルは研究開発のみを目的としています。

投稿者 /u/jacek2023
[リンク] [コメント]

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

nvidia/NVILA-8B-HD-Video · Hugging Face

要点

関連記事

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer