動画におけるGrounding DINOの可能性を解き放つ：限られたデータでの空間-時間ローカライゼーションのためのパラメータ効率の高い適応

arXiv cs.CV / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、小規模データによる時空間ビデオ・グラウンディング（STVG）を扱っている。特定のビデオ領域では、密な時空間アノテーションや時間と言語のアラインメントを行うコストが高すぎるためである。
そこで本研究は、ST-GDというパラメータ効率の高い適応手法を提案する。事前学習済みの2Dビジョン-言語モデル（例：Grounding DINO）を凍結し、軽量なアダプタ（訓練可能パラメータは約1,000万）を追加するとともに、境界予測のための時間デコーダを導入する。
基本モデルの事前知識（priors）を保持しつつ時空間的な認識を注入することで、ST-GDは小規模データでよく起きる過学習を緩和することを目的に設計されている。
実験の結果、データが乏しい設定においてHC-STVG v1/v2で高い性能が得られ、VidSTGに対しても堅牢な汎化が確認された。
本研究は、厳しいアノテーションおよびデータ制約のもとで動画理解システムを構築するための一般的なパラダイムとしてST-GDを位置付ける。