MOSA:モーションに導かれた意味的アラインメントによるダイナミック・シーン・グラフ生成

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

要点

  • この論文は、細かな関係や頻度の低い「テール」関係のモデリングにおける既存手法の課題を狙い、ダイナミック・シーン・グラフ生成のためのモーション主導型セマンティック・アラインメント手法MOSAを提案します。
  • MOSAは、モーション特徴抽出器で距離・速度・運動の継続性・方向整合性といった物体ペアの動きの属性を符号化し、モーション誘導相互作用モジュールで空間関係の特徴と融合して動きに応じた関係表現を生成します。
  • 意味の識別力を高めるために、視覚的な関係特徴を、関係カテゴリのテキスト埋め込みと整合させるクロスモーダルなアクション・セマンティック・マッチングを用います。
  • さらにカテゴリー重み付き損失により頻度の低い(テール)関係の学習を強調し、Action Genomeデータセットで最良の性能を示したと報告しています。