長尺映像理解のためのMLLMエージェントによる進進的ビデオ凝縮

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、動画ベースのマルチモーダルLLM（MLLM）推論における計算量とフレームコストを削減する、長尺映像理解のためのエージェントProVCAを提案する。
ProVCAは段階的に動作し、まずクエリに関連する映像区間を局所化し、次に類似度に基づいて重要なスニペットを選択し、最後に特定のキーフレームへと精緻化して、対象を絞ったMLLM処理を行う。
著者らは、従来の「テキスト→LLM」アプローチでは微細な視覚的手がかりを見落とし得る一方で、「動画→MLLM」直通のパイプラインはフレーム消費が多すぎるため、凝縮（condensation）戦略が動機づけられていると主張する。
ProVCAは、既存の学習不要手法よりも少ないフレーム数で、EgoSchemaで69.3%・NExT-QAで80.5%・IntentQAで77.7%のゼロショット精度において最先端の性能を報告している。

Abstract

長い動画を理解するには、限られた計算予算のもとで、長い系列からクエリに関連する情報を抽出する必要があります。既存のテキスト→LLMパイプラインは、きめ細かな視覚的手がかりを失います。一方、動画ベースのマルチモーダル大規模言語モデル（MLLM）は視覚的な詳細を保持できますが、フレーム数を大量に必要とし、計算コストが高すぎます。本研究では、効率的な動画理解のためにMLLMを活用することを目指します。多段階の動画圧縮エージェントであるProVCAを提案します。ProVCAは、複数の粒度で重要な動画フレームを反復的に特定します。まずProVCAは、クエリに関連する動画セグメントを特定するためのセグメント位置特定モジュールを採用し、次に類似度に基づいて重要なスニペットを選択するスニペット選択モジュールを用い、最後にそれらのスニペット内で特定のキーフレームをピンポイントするキーフレーム洗練モジュールを適用します。粗いセグメントから細かなフレームへと、対象範囲を段階的に絞り込むことで、ProVCAはMLLMベースの推論に必要な少数のキーフレームを特定します。ProVCAは、訓練なしの従来手法よりも少ないフレーム数を使用しつつ、EgoSchemaで69.3\%、NExT-QAで80.5\%、IntentQAで77.7\%という最先端のゼロショット精度を達成します。

Black Hat Asia

AI Business

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

日経XTECH

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

日経XTECH

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

日経XTECH

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

日経XTECH

長尺映像理解のためのMLLMエージェントによる進進的ビデオ凝縮

要点

Abstract

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長 早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに