VideoStir: スパatio-時空間的に構造化されたインテント対応RAGで長尺動画を理解する
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- VideoStirは、長時間の動画にマルチモーダルLLMを適用するという課題に取り組む。そこでは、コンテキストウィンドウが限られているため、関連する視覚的根拠をエンドツーエンドで用いることが難しい。
- この手法では、動画をクリップにまたがるスパatio-時空間グラフとして表現し、時系列的には遠いが文脈的には関連する出来事間で根拠を集めるためにマルチホップ検索を行う。
- VideoStirは、クエリの推論意図との整合性に基づいてフレームを取得する、MLLMベースの「意図-関連性スコアラ」を追加する。これにより、脆い(壊れやすい)明示的な意味マッチングへの依存を減らすことを狙う。
- 意図アラインメント(整合)コンポーネントを学習するために、著者らはフレームとクエリの意図関連性を学ぶIR-600Kデータセットを導入する。
- 実験では、補助情報なしで、最先端のベースラインに対して競争力のある性能が報告されており、論文にはコード/チェックポイントが提供されている。




