要旨: トリムされていない動画から部分的に関連するセグメントを取得することは、2つの持続的な課題により依然として困難です。すなわち、テキストと動画セグメント間における情報密度の不一致、そしてセマンティックな焦点やイベント間の相関を見落としてしまう限定的な注意機構です。私たちは、これらの問題に対してテキストおよびビジュアルの両面から取り組む、Knowledge-Refined Dual Context-Aware NetworkであるKDC-Netを提案します。テキスト側では、階層的セマンティック集約モジュールがマルチスケールのフレーズ手がかりを捉え、適応的に融合することで、クエリの意味を強化します。動画側では、動的時間注意機構が相対位置エンコーディングと適応的な時間窓を用いて、局所的な時間的整合性を保ちながら重要なイベントを強調します。さらに、時間的連続性を考慮した洗練(refinement)で強化した、動的CLIPベースの蒸留戦略により、セグメントに応じた、かつ目的に整合した知識転移が保証されます。PRVRベンチマークでの実験では、KDC-Netが最先端手法を一貫して上回ることが示され、特に「低いモーメント対動画比」の条件下で顕著です。
部分的に関連するビデオ検索のための、知識で洗練されたデュアル文脈対応ネットワーク
arXiv cs.CV / 2026/3/26
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テキストとビデオの情報密度の不一致や、意味的フォーカスおよびイベント間の相関に対する注意が弱いことを背景に、トリミングされていないビデオから部分的に関連するセグメントを検索するための、デュアル文脈対応モデルKDC-Netを提案する。
- KDC-Netは、階層的セマンティック集約(Hierarchical Semantic Aggregation)モジュールによってクエリの意味を強化し、多尺度のフレーズ手がかりを適応的に融合する。
- ビデオ側では、相対位置エンコーディングと適応的な時間窓を用いたダイナミック・テンポラル・アテンションにより、重要な出来事を強調しつつ、局所的な時間的整合性を維持する。
- 本手法は、時間的連続性を考慮した洗練(refinement)を伴う、動的CLIPベースの蒸留戦略を採用し、セグメントレベルで、目的に整合した知識を転移する。
- PRVRベンチマークでの実験により、KDC-Netは既存の最先端アプローチを上回る性能を示し、特に「瞬間(moment)対ビデオ」の比率が低い場合に顕著である。