One Identity, Many Roles:マルチモーダル・エンティティ相互参照による強化された映像状況認識

arXiv cs.CV / 2026/4/28

📰 ニュースModels & Research

要点

  • 本論文は、映像状況認識(VidSitu)における「誰が誰に対して何をしたのか、何を使って、どのように、どこで」といった問いに取り組み、複数イベントにわたる出来事の役割を短い説明とともに特定することを重視しています。
  • 著者らは、テキスト中のエンティティ言及と映像内でのグラウンディングを、役割が異なっても一貫したエンティティ同定として結び付けるマルチモーダル・エンティティ相互参照(MEC)を提案しています。
  • CineMECとして、イベント役割の言及グループと視覚的なエンティティ・クラスタを複数段階で接続する手法を提示し、学習時には明示的なグラウンディング監督を用いない設計になっています。
  • VidSituにグラウンディング注釈を追加し、キャプションの品質(CIDEr +2.5%、LEA +7%)と視覚的グラウンディング(HOTA +18%)の双方で改善を報告しています。