CVA：時間的グラウンディングのための文脈対応型ビデオテキストアライメント

arXiv cs.AI / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、文脈対応型ビデオテキストアライメント（CVA）を提案し、ビデオの時間的グラウンディングを対象として、正しい時間範囲に敏感にビデオ区間とテキストを整合させつつ、無関係な背景文脈に対して頑健であるようにする。
CVAには、クエリに非依存な混合による偽陰性（false negatives）を減らすために、類似性ベースの置換プールを用いて意味的に無関係なクリップのみを混ぜ込み、学習データを拡張するQuery-aware Context Diversification（QCD）が含まれる。
また、文脈の変化や困難なネガティブ（hard negatives）に対して難しい時間境界での表現を安定化させることを目的としたコントラスト学習損失であるContext-invariant Boundary Discrimination（CBD）を提案する。
さらに、ウィンドウ付き自己注意による階層的なマルチスケールモデリングと、学習可能なクエリを用いた双方向のクロスアテンションを組み合わせた新しいContext-enhanced Transformer Encoder（CTE）を提示する。
実験では、QVHighlightsやCharades-STAといったVTGベンチマークにおいて先行の最先端を上回る結果が報告され、Recall@1が約5ポイント向上していることから、本手法が偽陰性の緩和に重点を置いている点が強調されている。

概要: 本研究では、動画時間的グラウンディングにおける重要な課題、すなわち無関係な背景文脈に対して頑健でありながら、時間的に敏感な動画-テキスト整合を実現することを目的とした、新しい枠組みである Context-aware Video-text Alignment (CVA) を提案します。提案枠組みは3つの主要コンポーネントから構成されます。第一に、意味的に無関係な内容のみを混合することを保証する、新しいデータ拡張戦略である Query-aware Context Diversification (QCD) を提案します。これは、置換クリップの動画-テキスト類似度に基づくプールを構築し、多様な文脈を模擬しつつ、クエリ非依存の混合によって引き起こされる「false negative（偽陰性）」を防ぎます。第二に、Context-invariant Boundary Discrimination (CBD) 損失を導入します。これはコントラスト損失であり、困難な時間的境界において意味的一貫性を強制することで、それらの表現が文脈の変化や難しいネガティブに対して頑健になるようにします。第三に、Context-enhanced Transformer Encoder (CTE) を導入します。これは階層型のアーキテクチャで、ウィンドウ化された自己注意と、学習可能なクエリを用いた双方向のクロス注意を組み合わせ、多尺度の時間的文脈を捉えます。これらのデータ中心およびアーキテクチャ上の改善の相乗効果により、CVA は QVHighlights および Charades-STA を含む主要な VTG ベンチマークで最先端の性能を達成します。特に、本手法は最先端手法に対して Recall@1（R1）スコアで約5ポイントの大幅な改善を達成しており、false negative の低減における有効性を示しています。