静的・動的グラフ整合ネットワークによる時系列ビデオ内グラウディング

arXiv cs.CV / 2026/5/4

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 時系列ビデオ内グラウディング(TVG)は、自然言語クエリに意味的に対応する未トリミング動画中の時間区間を特定する課題であり、近年はGCN(グラフ畳み込みネットワーク)を用いてクリップ間の時間関係をグラフ化し推論を強化する手法が広く使われています。
  • 既存のGCNベース手法は、静的特徴または動的特徴のいずれか一方のみでノードを作ることで表現が不完全になりがちであること、時間グラフをクエリ非依存に構築して効率的な特徴相互作用ができないこと、さらに単一粒度の意味マッチングに偏って収束が遅く精度が伸びにくいことがボトルネックになっています。
  • 提案手法SDGAN(Static and Dynamic Graph Alignment Network)は、静的・動的な視覚特徴を同時に活用して2つの補完的な時間グラフを構築し、位置ごとのノード整合(Position-wise Nodes Alignment)によりより表現力の高い頑健な視覚表現を作ります。
  • さらにSDGANは、クエリ・クリップのコントラスト学習とアダプティブなグラフモデリングを導入し、視覚クリップとテキストクエリの対応を明示的に整合させることで、クエリ対応型の表現を得ます。
  • そして、マルチグラニュラリティな時間提案と、段階的なイージー・トゥ・ハード学習戦略により、大まかなローカライズから細かな境界修正までをつなぐことで、3つのベンチマークで複雑なTVGシナリオにおいて優れた性能を示し、コード/データもGitHubで公開しています。

要旨: 時間的ビデオグラウンディング(TVG)は、与えられた自然言語のクエリに意味的に対応する、トリミングされていない映像内の時間的なモーメントを特定(ローカライズ)することを目的とする。近年、グラフ畳み込みネットワーク(GCN)が、ビデオクリップ間の時間的関係をモデル化し、クリップレベルのグラフを構築することで文脈推論を強化するため、TVGで広く採用されている。とはいえ、既存のGCNベースのTVG手法には3つの重要なボトルネックがある。1) 多くの手法は、グラフのノードを静的特徴または動的特徴のいずれかのみで構築してしまい、視覚表現が不完全になり、補完的なセマンティクスを見落とす。2) 多くの手法は、時間グラフをクエリ非依存の方法で構築するため、時間グラフ表現内での特徴の相互作用が非効率になる。3) 多くの手法は単一粒度のセマンティック対応に悩まされがちであり、複雑な時間的ローカライズタスクを直接学習すると、収束が遅くなり、精度が最適でない可能性がある。これらの課題に対処するため、静的および動的グラフアラインメントネットワーク(SDGAN)を提案する。まず、SDGANは静的および動的な視覚特徴を共同で活用して、2つの補完的な時間グラフを構築し、Position-wise Nodes Alignmentを実行することで、より表現力があり頑健な視覚表現を実現する。次に、SDGANは、クエリ・クリップ対照学習と適応的グラフモデリングを導入し、視覚クリップを対応するテキストクエリへ明示的に整合させることで、クエリに応じた視覚表現を得る。さらに、SDGANは、プログレッシブなイージー・トゥ・ハード学習戦略の中で多粒度の時間提案を取り込み、粗い粒度のセマンティックなローカライズと、細かい粒度の時間境界の精緻化を効果的に橋渡しする。3つのベンチマークデータセットでの大規模な実験により、SDGANが複雑なTVGシナリオ全体で優れた性能を達成することを示す。コードとデータセットは https://github.com/ZhanJieHu/SDGAN で入手可能である。