パラダイムシフト:動画における時間的センテンス・グラウンディングのための完全エンドツーエンド学習
arXiv cs.CV / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、動画における時間的センテンス・グラウンディング(TSGV)を扱っており、システムが非トリミング動画内で自然言語クエリに一致する時間区間を特定しなければならない。
- 従来の手法は、事前学習済みの視覚バックボーンを凍結し、TSGVのためではなく分類のために最適化された、クエリに依存しない特徴をオフラインで用いることで、タスクの不一致(task-discrepancy)問題に悩まされると主張している。
- 著者らは、動画バックボーンと時間的ローカライゼーションヘッドを共同で最適化する完全エンドツーエンドの学習フレームワークを提案し、モデル規模を変えても、エンドツーエンド学習が凍結ベースラインを実験的に上回ることを示す。
- 彼らはSCADA(Sentence Conditioned Adapter)を導入する。これは、センテンスの特徴を用いてバックボーンのパラメータの一部を適応的に更新し、小さな部分だけを更新することで、メモリ使用量を抑えつつより深いバックボーンを可能にし、視覚特徴への言語的なモジュレーションも改善する。
- 2つのベンチマークにおける実験では、最先端手法に対して性能が向上しており、コードとモデルの公開予定がある。




