ビデオ・アクティブ・パーセプション:視覚言語モデルによる長尺ビデオ理解の推論時における効果的手法

arXiv cs.CV / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、Video Active Perception(VAP)という学習不要の手法を提案し、長尺ビデオの質問応答でフレーム選択を一様サンプリングよりも効率良く行うことで精度を高めます。
  • VAPは、キー フレーム選択を「アクティブ・パーセプション」におけるデータ獲得問題として捉え、軽量なテキスト条件付きビデオ生成モデルで事前の世界知識を表現し、必要な情報をどれだけ取りにいくかを導きます。
  • 実験では、EgoSchema、NExT-QA、ActivityNet-QA、IntentQA、CLEVRERといった複数の長尺/推論系ビデオQAベンチマークに対して、ゼロショットで最先端の性能を報告しています。
  • VAPは、GPT-4o、Gemini 1.5 Pro、LLaVA-OVを用いたベースラインに比べて、質問あたりの使用フレーム数を最大5.6倍効率化しつつ、推論力の強さや質問に関連するキー フレームの選択にも優れるとされています。
  • 全体として、アクティブ・パーセプションを活用することで、ビデオQAをより効果的かつ計算効率良く実現できる可能性が示されています。

概要: 大規模な視覚言語モデル(VLM)は、ビデオの質問応答(QA)などのマルチモーダル課題を大きく前進させてきました。しかし、VLMは、標準的な一様サンプリングが高コストであり、性能が頭打ちになる可能性があるため、フレームを効果的かつ効率的に選択するという課題に直面しています。モデルが、期待と異なるデータを獲得することで情報を得られるとする能動的知覚(active perception)理論に着想を得て、我々はVLMを用いた長尺動画QAを強化するための、学習不要の手法であるVideo Active Perception(VAP)を提案します。我々のアプローチでは、キーフレーム選択を能動的知覚におけるデータ獲得として扱い、先行する世界知識を表現するために軽量なテキスト条件付き動画生成モデルを活用します。実験的に、VAPは、EgoSchema、NExT-QA、ActivityNet-QA、IntentQA、CLEVRERといった長尺または推論型の動画QAデータセットにおいて、標準のGPT-4o、Gemini 1.5 Pro、LLaVA-OVに比べて、質問あたりのフレーム数で最大5.6倍のフレーム効率向上を達成しつつ、ゼロショットで最先端の結果を得ています。さらにVAPは、先行手法よりも強い推論能力を示し、質問に関連するキーフレームを効果的に選択します。これらの結果は、能動的知覚を活用して長尺動画QAのフレーム有効性と効率を改善できる可能性を示しています。