長編動画理解のための適応的貪欲フレーム選択
arXiv cs.CL / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、固定フレーム予算の下で、クエリの関連性と意味的表現性の両立を図る質問適応型貪欲フレーム選択を提案することで、長編動画理解における推論のボトルネックに対処する。
- 正確なタイムスタンプを備えた1 FPSの候補プールを作成し(最大1000件まで)、フレームの評価には関連性をSigLIPで、意味的類似性をDINOv2で評価する。
- フレームは、モジュラーな関連性項とファシリティロケーションのカバレッジ項の加重和を貪欲に最大化することで選択され、正規化されて単調でサブモジュラーな目的関数を生み出し、(1-1/e)の近似保証を提供する。
- 4つのプリセット戦略と、軽量なテキストのみの質問タイプ分類器を導入して、クエリを最も性能のよいプリセットへルーティングし、質問依存のトレードオフを可能にする。
- MLVUでの実験は、均一サンプリングや強力なベースラインに比べて一貫した精度向上を示し、特に厳しいフレーム予算時に顕著である。