要約: Dense Video Captioning (DVC) のための既存の検索補助型アプローチは、真のイベント境界に沿った正確な時間的セグメーションを達成できないことが多く、イベント境界を見落とすヒューリスティックな戦略に依存しています。提案されたフレームワーク、\textbf{STaRC} は、ハイライト検出モジュールを通じてフレームレベルのサリエンシーを監督することでこの制限を克服します。ハイライト検出モジュールは追加のアノテーションを必要とせず、DVC のグラウンドトゥルースアノテーションから直接導出された二値ラベルで訓練される点に留意してください。さらに、サリエンシースコアを統一的な時間的信号として活用し、サリエンシー誘導セグメンテーションによる検索を駆動し、デコーダに注入された明示的なサリエンシー・プロンプトを介してキャプション生成を知らせることを提案します。サリエンシー制約付きセグメンテーションを課すことにより、実際のイベント遷移と緊密に一致する時間的に一貫したセグメントが生成され、より正確な検索と文脈的に根拠のあるキャプション生成が実現します。YouCook2 および ViTT のベンチマークで包括的な評価を実施し、STaRC はほとんどの指標で最先端の性能を達成します。コードは https://github.com/ermitaju1/STaRC で公開されています。
サリエンシーに従う: Retrieval-augmented Dense Video Captioning (DVC) のための監督付きサリエンシー
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- STaRC は、DVC のグラウンドトゥルースアノテーションから直接訓練されたハイライト検出モジュールを用いることで、追加のラベリングを必要とせず、検索補助型密な動画キャプショニングのための監督付きフレームレベルサリエンシー手法を導入します。
- サリエンシースコアを統一的な時系列信号として用い、サリエンシー誘導セグメンテーションによる検索を駆動し、デコーダに注入された明示的な Saliency Prompts を介してキャプション生成を通知します。
- この手法は実際のイベント遷移と一致する時間的に一貫したセグメントを生成し、ほとんどの指標で YouCook2 および ViTT において最先端の性能を達成します。
- コードは GitHub で公開されており、STaRC の再現と実用的な普及を可能にします。

