AI Navigate

自分の担当領域を守る: Dense Video Captioning のための重複抑制損失を用いた役割特異的クエリ

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

要点

  • 密集動画キャプション付けにおいて、ローカライゼーションとキャプショニングを分離する役割特異的クエリを導入し、タスク間の干渉を低減します。
  • クエリ間の相互時系列重複を抑制する機構を追加し、重ならないより正確なイベント領域を学習させます。
  • 分離されたローカライズとキャプショニングの出力間の意味的一貫性を確保する対照的整合性を適用します。
  • 概念レベル表現を用いた軽量なコア概念モジュールを提案し、キャプションの意味的豊かさを向上させます。
  • YouCook2 および ActivityNet Captions などの主要 DVC ベンチマークで有効性を検証し、性能向上を示します。
Abstract: Dense Video Captioning(DVC)は、動画内の複数のイベントを時系列的に局在させ、それらを自然言語で説明するという難解なマルチモーダルタスクです。クエリベースのフレームワークはローカライゼーションとキャプショニングの同時かつエンドツーエンドの処理を可能にしますが、共有クエリへの依存は二つのタスク間の大きなマルチタスク干渉を招くとともに、局所化の時間的冗長性を生み出します。本論文では、ローカライゼーションとキャプショニングを独立した成分に分離する役割特異的クエリを提案し、それぞれが自分の役割を専ら学習できるようにします。続いて、対応する出力間の意味的整合性を強制する対照的整合性(contrastive alignment)を用い、分離されたクエリ全体で一貫した挙動を保証します。さらに、クエリ間の相互時系列重複を抑制する新規なメカニズムを設計し、時系列の冗長性に対処します。加えて、概念レベルの表現を用いてキャプションの意味的豊かさをさらに高める軽量モジュールを導入します。我々の手法の有効性を、YouCook2およびActivityNet Captionsといった主要なDVCベンチマークでの大規模な実験を通じて示します。