長尺映像理解のためのMLLMエージェントによる進進的ビデオ凝縮
arXiv cs.CV / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、動画ベースのマルチモーダルLLM(MLLM)推論における計算量とフレームコストを削減する、長尺映像理解のためのエージェントProVCAを提案する。
- ProVCAは段階的に動作し、まずクエリに関連する映像区間を局所化し、次に類似度に基づいて重要なスニペットを選択し、最後に特定のキーフレームへと精緻化して、対象を絞ったMLLM処理を行う。
- 著者らは、従来の「テキスト→LLM」アプローチでは微細な視覚的手がかりを見落とし得る一方で、「動画→MLLM」直通のパイプラインはフレーム消費が多すぎるため、凝縮(condensation)戦略が動機づけられていると主張する。
- ProVCAは、既存の学習不要手法よりも少ないフレーム数で、EgoSchemaで69.3%・NExT-QAで80.5%・IntentQAで77.7%のゼロショット精度において最先端の性能を報告している。



