概要: 参照ビデオ物体セグメンテーション(RVOS)は、自然言語による記述に基づいて動画内の対象物体をセグメント化することを目的としています。しかし、視覚言語モデルと別個の伝播モジュールを組み合わせる固定のキーフレームベース手法は、多変化が激しい時空間ダイナミクスを捉えられないことが多く、さらに多段階の推論を必要とする問いに対応するのも難しいため、静的なRVOSベンチマークの外側で、動きが多い動画や推論志向の動画では性能が急激に低下します。これらの制限に対処するため、我々はVIRST(Video-Instructed Reasoning Assistant for Spatio-Temporal Segmentation)を提案します。これは、グローバルな動画推論とピクセルレベルのマスク予測を単一モデルの中で統合するエンドツーエンドのフレームワークです。VIRSTは、Spatio-Temporal Fusion(STF)によって意味表現とセグメンテーション表現を橋渡しします。STFは、セグメンテーションを意識した動画特徴を、視覚言語バックボーンに融合させます。さらに、大きな動き、見えの遮蔽、再出現の状況下でも安定した時間的手掛かりを提供する、時系列に隣接するアンカーフレームを維持するために、Temporal Dynamic Anchor Updaterを採用します。この統一された設計により、現実的で困難な条件の下で、多様なRVOSベンチマークにおいて先端(SOTA)の結果を達成し、参照(referring)および推論(reasoning)志向の両方の設定に対して強い汎化性能を示します。コードとチェックポイントは https://github.com/AIDASLab/VIRST で利用可能です。
VIRST:時空間セグメンテーションのための動画インストラクション推論アシスタント
arXiv cs.CV / 2026/3/31
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文では、参照動画物体セグメンテーション(Referring Video Object Segmentation)向けに設計された、エンドツーエンドの「Video-Instructed Reasoning Assistant」VIRSTを提案する。高速な動きや推論を要するクエリにおいて、キーフレームベースのRVOSパイプラインが失敗する問題に対処する。
- VIRSTは、ビジョン・ランゲージモデルと別の伝播(プロパゲーション)モジュールを結合するのではなく、グローバルな動画推論とピクセルレベルのマスク予測を単一モデルに統合する。
- Spatio-Temporal Fusion(STF)モジュールは、セグメンテーションに配慮した動画特徴をビジョン・ランゲージのバックボーンへ注入することで、セマンティック表現とセグメンテーション表現の橋渡しを行う。
- Temporal Dynamic Anchor Updaterは、時間的に隣接するアンカーフレームを維持し、大きな動き、遮蔽、そして物体の再出現があっても安定した時間的手がかりを提供する。
- 実験では、複数のRVOSベンチマークにおいて先進的(state-of-the-art)の性能が報告され、参照型および推論志向の両方の設定に対して強い汎化性能を示す。コードとチェックポイントはGitHubで公開されている。



