MASRA:MLLM支援による意味・関係の一貫性整合で実現する動画時間的グラウンド化

arXiv cs.CV / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MASRAは、動画時間的グラウンド化(VTG)に対し、クロスモーダルの意味ギャップを抑えつつ、クエリに対する動画モーメントの整合を改善する学習時フレームワークです。
  • 学習中にMLLMを用いて、イベント単位の記述(時間スパン付き)とクリップ単位のキャプションという2種類のテキスト事前知識を生成し、これをもとに2つのMLLM支援アライメントを行います。
  • ESTAは、時間的文脈とイベント意味論を整合させることでスパンレベルの識別性を強化し、LRCAはキャプションから得た関係行列をモデルの時間特徴類似度行列に対応づけて時間的な一貫性を高めます。
  • MASRAは、semantic-guided enhancementやsecond-order relational attentionに加え、文脈に応じたコードブックを用いるDecoupled Alignment Interaction(DAI)によって、クエリに無関係な意味を減らす工夫を入れています。
  • 広範な実験で既存手法より優れているとされ、アブレーションにより有効性も検証されています。また、MLLMは推論時に使われないため実運用面でも有利です。