長尺映像理解のためのMLLMエージェントによる進進的ビデオ凝縮

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、動画ベースのマルチモーダルLLM(MLLM)推論における計算量とフレームコストを削減する、長尺映像理解のためのエージェントProVCAを提案する。
  • ProVCAは段階的に動作し、まずクエリに関連する映像区間を局所化し、次に類似度に基づいて重要なスニペットを選択し、最後に特定のキーフレームへと精緻化して、対象を絞ったMLLM処理を行う。
  • 著者らは、従来の「テキスト→LLM」アプローチでは微細な視覚的手がかりを見落とし得る一方で、「動画→MLLM」直通のパイプラインはフレーム消費が多すぎるため、凝縮(condensation)戦略が動機づけられていると主張する。
  • ProVCAは、既存の学習不要手法よりも少ないフレーム数で、EgoSchemaで69.3%・NExT-QAで80.5%・IntentQAで77.7%のゼロショット精度において最先端の性能を報告している。

Abstract

長い動画を理解するには、限られた計算予算のもとで、長い系列からクエリに関連する情報を抽出する必要があります。既存のテキスト→LLMパイプラインは、きめ細かな視覚的手がかりを失います。一方、動画ベースのマルチモーダル大規模言語モデル(MLLM)は視覚的な詳細を保持できますが、フレーム数を大量に必要とし、計算コストが高すぎます。本研究では、効率的な動画理解のためにMLLMを活用することを目指します。多段階の動画圧縮エージェントであるProVCAを提案します。ProVCAは、複数の粒度で重要な動画フレームを反復的に特定します。まずProVCAは、クエリに関連する動画セグメントを特定するためのセグメント位置特定モジュールを採用し、次に類似度に基づいて重要なスニペットを選択するスニペット選択モジュールを用い、最後にそれらのスニペット内で特定のキーフレームをピンポイントするキーフレーム洗練モジュールを適用します。粗いセグメントから細かなフレームへと、対象範囲を段階的に絞り込むことで、ProVCAはMLLMベースの推論に必要な少数のキーフレームを特定します。ProVCAは、訓練なしの従来手法よりも少ないフレーム数を使用しつつ、EgoSchemaで69.3\%、NExT-QAで80.5\%、IntentQAで77.7\%という最先端のゼロショット精度を達成します。