AI Navigate

ショット認識を前提としたフレームサンプリングによる動画理解

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • InfoShotは、長時間の動画理解のためのショット認識型フレームサンプラーであり、映像を意味的に一貫したショットに分割し、各ショットから2つのキーフレームを選択して、メインコンテンツとショット内の変化の双方を捉える。
  • 本手法は情報理論的な目的を用いてショット構造に関する情報とショット内のまばらな変動を保持し、再訓練なしで下流の予測性能を向上させる。
  • SynFlashという新しい合成ベンチマークが導入され、フレームレベルのグラウンドトゥルースを持つ短命・サブ秒程度の異常パターンを評価する。
  • 実験では、InfoShotはフレーム数の制約下で異常ヒット率とVideo-QAの精度を向上させ、標準的な動画理解ベンチマークにおいて強力なベースラインに匹敵するか上回ることが示された。
  • このアプローチはタスクに依存しない汎用性を持ち、Vision-Language Modelを用いた動画理解にも適用可能で、幅広い動画分析タスクに影響を与える可能性がある。

要旨: Vision-Language Models(VLM)を用いた長時間動画理解の効率性のためには、ビデオフレームのサンプリングが不可欠です。密な入力はコストがかかり、しばしば文脈制限を超えるためです。
しかし、保持できるフレーム数が限られている場合、既存のサンプラーは広範な動画カバレッジと短くても重要なイベントのバランスを取ることに失敗しがちで、下流の予測の信頼性を損なうことがあります。
この問題に対処するため、長時間動画理解のためのタスク非依存でショット認識型のフレームサンプラーであるInfoShotを提案します。
InfoShotはまず動画を意味的に一貫したショットに分割し、各ショットから2つの補完的なキーフレームを選択します。1つは主な内容を表し、もう1つはショット内の珍しい変化を捉えます。
この設計は情報理論的な目的に導かれており、サンプル化された集合がショット構造とショット内のまれな逸脱の両方について高い情報を保持するよう促します。
このように、全体的な動画文脈と短時間の意思決定に重要な瞬間の両方を、再学習を必要とせずに保持する可能性を高めます。
このような一時的なイベントをより適切に評価するため、制御可能な一秒未満の異常パターンとフレームレベルのグラウンドトゥルースを備えた合成ベンチマークSynFlashをさらに導入し、InfoShotを既存の異常データセットおよび一般的な動画理解タスクで評価します。
実験は、InfoShotがフレーム数の制約下で異常ヒット率と下流のVideo-QAの精度を向上させ、標準的な動画理解ベンチマークにおいて強力なベースラインと同等かそれを上回ることを示しています。