ViKey:視覚プロンプトによる動画の時間的理解の強化

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 動画LLMは、効率化手法によって中間フレームが削減されると、時間的推論の精度を失いがちである。これは、疎な手がかりから出来事の進行を推論することが難しいためである。
  • 本論文では、フレームに明示的な序数情報を注釈する視覚プロンプトを提案し、時間的な連続性を改善することで、フレーム単位の参照を可能にし、位置の曖昧さを低減する。
  • 訓練不要の推論フレームワークであるViKeyを導入し、視覚プロンプトと軽量なKeyword-Frame Mapping(KFM)モジュールを組み合わせることで、インデックスベースの時間アンカーを用いて、テキストの手がかりと関連するフレームを結び付ける。
  • 実験結果は、ViKeyが時間的推論を大幅に改善できることを示しており、いくつかのデータセットでは、全フレーム(dense-frame)ベースラインの性能を維持しつつ、使用フレームを最大でも20%程度にまで削減できる。
  • この手法は、再学習を必要とせずに動画理解の計算効率を高めることを目標としており、時間的忠実性を保ちながら動画処理コストを削減する実用的な選択肢となる。