Motion-o: 軌跡に基づく動画推論

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Motion-o は、動画理解のために空間-時間-軌跡(STT)推論を公式化し、物体の軌跡を明示化する。
  • 軌跡グラウンディングデータセットのアーティファクトを導入し、境界ボックスの追跡を密度化して軌跡レベルの訓練信号を強化する。
  • Motion Chain of Thought (MCoT) を導入し、観察を軌跡へ結びつけるために、物体ごとの方向、速度、スケール変化を要約する推論経路である。
  • Motion-o の訓練では、アーキテクチャの変更を伴わず視覚的証拠に基づく推論を促す報酬関数を用い、空間-時間のグラウンディングと軌跡予測の改善を示している。コードは公開されている。

要約:
最近の研究はビデオ推論において著しい進展を遂げており、多くのモデルが時空間的エビデンス連鎖を活用して推論能力を強化しています。同時に、増え続けるデータセットとベンチマークは、そうした推論を支援・評価するための構造化された注釈を提供するようになっています。しかし、観測間で物体が
emph{どのように}動くかを推論することにはほとんど注意が払われていません:連続する観測を結ぶことによって動作パターンを明示する先行研究はなく、軌跡の理解は暗黙的で検証が難しいままです。
この欠落している能力を Spatial-Temporal-Trajectory(STT)推論として定式化し、動作中心のビデオ理解を視覚言語モデルへ拡張する
extbf{Motion-o} を導入します。これは軌跡を明示的かつ検証可能にします。動作推論を可能にするため、疎なキーフレーム監視を拡張して密なバウンディングボックスのトラックを生み出し、軌跡レベルの学習信号をより強化するデータセット・アーティファクトを導入します。最後に、Motion Chain of Thought(MCoT)を導入します。これは、
exttt{}タグを離散的に用いて各物体の方向、速度、そして速度の変化のスケールを要約し、根拠づけられた観測を軌跡へ明示的につなぐ構造化推論経路です。Motion-o を訓練するため、視覚的証拠に直接推論させる報酬関数を設計し、アーキテクチャの変更を一切必要としません。実証的な結果は、Motion-o が時空間的グラウンディングと軌跡予測を改善し、既存のフレームワークと完全に互換性を保つことを示しており、証拠ベースのビデオ理解におけるモーション推論を重要な拡張として確立します。コードは https://github.com/ostadabbas/Motion-o で入手できます。