自分の担当領域を守る: Dense Video Captioning のための重複抑制損失を用いた役割特異的クエリ
arXiv cs.CV / 2026/3/13
📰 ニュースModels & Research
要点
- 密集動画キャプション付けにおいて、ローカライゼーションとキャプショニングを分離する役割特異的クエリを導入し、タスク間の干渉を低減します。
- クエリ間の相互時系列重複を抑制する機構を追加し、重ならないより正確なイベント領域を学習させます。
- 分離されたローカライズとキャプショニングの出力間の意味的一貫性を確保する対照的整合性を適用します。
- 概念レベル表現を用いた軽量なコア概念モジュールを提案し、キャプションの意味的豊かさを向上させます。
- YouCook2 および ActivityNet Captions などの主要 DVC ベンチマークで有効性を検証し、性能向上を示します。
Abstract: Dense Video Captioning(DVC)は、動画内の複数のイベントを時系列的に局在させ、それらを自然言語で説明するという難解なマルチモーダルタスクです。クエリベースのフレームワークはローカライゼーションとキャプショニングの同時かつエンドツーエンドの処理を可能にしますが、共有クエリへの依存は二つのタスク間の大きなマルチタスク干渉を招くとともに、局所化の時間的冗長性を生み出します。本論文では、ローカライゼーションとキャプショニングを独立した成分に分離する役割特異的クエリを提案し、それぞれが自分の役割を専ら学習できるようにします。続いて、対応する出力間の意味的整合性を強制する対照的整合性(contrastive alignment)を用い、分離されたクエリ全体で一貫した挙動を保証します。さらに、クエリ間の相互時系列重複を抑制する新規なメカニズムを設計し、時系列の冗長性に対処します。加えて、概念レベルの表現を用いてキャプションの意味的豊かさをさらに高める軽量モジュールを導入します。我々の手法の有効性を、YouCook2およびActivityNet Captionsといった主要なDVCベンチマークでの大規模な実験を通じて示します。
関連記事
次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ
Dev.to
オープンソースAIの波とセキュリティへの投資: Qwen、Microsoft、Google の動向
Dev.to

AIモデルがクリエイティブな文章を書けないのは初期モデルに見られた創造性や独創性を抑制してビジネス用途に特化させたせいだという指摘
GIGAZINE
RLax、JAX、Haiku、Optax を用いてスクラッチから Deep Q-Learning(DQN)を実装し、カートポール環境の強化学習エージェントを訓練する
MarkTechPost
[D]SQLのみで分類器を訓練する(反復的最適化なし)
Reddit r/MachineLearning