Abstract
時空間ビデオ・グラウンディング(Spatio-Temporal Video Grounding)は、自然言語クエリに基づき、時間次元と空間次元の両方にわたって対象物体を共同で局在化することを要求し、既存のマルチモーダル大規模言語モデル(MLLMs)にとって根本的な課題を提起します。私たちは2つの中核的な課題を特定します。すなわち、同一の自己回帰的出力空間内で2つの異質なサブタスクを結合することに起因する\textit{絡み合った時空間アライメント(entangled spatio-temporal alignment)}、および、対象物体が時間的にも空間的にも同時に疎性を示すため、グラウンディング用クエリに対して圧倒的多数の視覚トークンが無関係となる\textit{デュアルドメイン視覚トークンの冗長性(dual-domain visual token redundancy)}です。これらに対処するために、意味的な首尾一貫性を維持しつつ、時間的局在化と空間的局在化をデカップルする、エンドツーエンドの枠組み\textbf{Bridge-STG}を提案します。デカップルはこの絡み合いへの自然な解決策ですが、時間のMLLMと空間デコーダの間に意味的ギャップを生じさせるリスクがあります。Bridge-STGは、この問題を2つの重要な設計によって解決します。すなわち、\textbf{Spatio-Temporal Semantic Bridging(STSB)}機構とExplicit Temporal Alignment(ETA)により、MLLMの時間的推論コンテキストを、強固な意味的インターフェースとして機能する、強化されたブリッジング用クエリへと蒸留すること。そして\textbf{Query-Guided Spatial Localization(QGSL)}モジュールが、これらのクエリを利用して、多層のインタラクティブなクエリと正/負フレームのサンプリングを伴う、専用設計の空間デコーダを駆動し、デュアルドメインの視覚トークン冗長性を共同で解消することです。複数のベンチマークにまたがる大規模な実験により、Bridge-STGがMLLMベース手法の中で最先端の性能を達成することを示します。Bridge-STGは、VidSTGにおける平均m\_vIoUを26.4から34.3へと改善し、統一されたマルチタスク学習の枠組みのもとで、様々なきめ細かなビデオ理解タスクに対して強力なクロスタスク転移を示します。