OmniVTG:オープンワールド向けの動画時間的グラウンディングのための大規模データセットと学習パラダイム

arXiv cs.CV / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、テキストクエリに対応する動画中の時間区間を特定するVideo Temporal Grounding(VTG)について、意味多様性の広いオープンワールド環境に対応するための新しい大規模データセット「OmniVTG」を提案している。
  • OmniVTGは、既存データセットの語彙ギャップを検出し、不足している概念を含む可能性が高い動画を収集する「Semantic Coverage Iterative Expansion」パイプラインで構築される。
  • 注釈に際しては、マルチモーダルLLMが直接のグラウンディングよりも密なキャプション生成に強いという知見を活用し、キャプション中心の仕組みにより密でタイムスタンプ付きの記述を生成する。
  • 単純な教師あり微調整(SFT)だけでは、よく出る概念と稀少な概念の性能差が解消されないと主張し、モデル自身の予測を自己修正する「Self-Correction Chain-of-Thought(CoT)」学習パラダイムを提案している。
  • 実験では、OmniVTG上でのオープンワールド・グラウンディングで有効性が示され、さらに4つの既存VTGベンチマークでゼロショットの最先端性能を達成しており、コードもGitHubで公開されている。

アブストラクト: 動画時間的グラウンディング(Video Temporal Grounding: VTG)は、テキストクエリから動画中の区間を局所化する課題ですが、データセット規模の制約や意味の多様性の不足によりオープンワールド環境で苦戦しており、一般的な概念と稀な概念の間で性能差が生じます。これらの制限を克服するために、本研究では、オープンワールドVTGのための新しい大規模データセットであるOmniVTGを導入するとともに、Multimodal Large Language Models(MLLMs)のグラウンディング能力を高めることを目的としたSelf-Correction Chain-of-Thought(CoT)学習パラダイムを提案します。私たちのOmniVTGは、Semantic Coverage Iterative Expansion(意味カバレッジの反復拡張)という新規のパイプラインによって構築されており、まず既存データセットの語彙におけるギャップを特定し、これらの対象概念を含む可能性が非常に高い動画を収集します。高品質なアノテーションのために、現代のMLLMが直接的なグラウンディングよりも密なキャプション生成に優れているという洞察を活用し、MLLMに対して密でタイムスタンプ付きの記述を生成させるよう促すための、キャプション中心のデータエンジンを設計します。データセットに加えて、単純な教師あり微調整(SFT)だけでは不十分であることを観察します。すなわち、稀な概念と一般的な概念の間の性能差は依然として残ります。私たちは、MLLMの動画理解能力が、直接的なグラウンディング能力を大きく上回っていることを見出します。これに基づき、Self-Correction Chain-of-Thought(CoT)学習パラダイムを提案します。具体的には、まずMLLMに予測させ、次にその理解能力を用いて、予測を振り返り自己修正して洗練させるようにします。この能力は、SFT、CoT微調整、強化学習の3段階からなるパイプラインによって段階的に身につけさせます。広範な実験の結果、提案手法はOmniVTGデータセットにおけるオープンワールドでのグラウンディングにおいて優れるだけでなく、4つの既存VTGベンチマークに対するゼロショット性能でも最新の最先端結果を達成することが示されました。コードは https://github.com/oceanflowlab/OmniVTG で公開されています。