視覚言語モデルによるトレーニング不要のセマンティック・マルチオブジェクト追跡

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、物体の軌跡のみならず、人間が解釈できる出力(要約、インスタンス・キャプション、相互作用ラベル)を生成する、トレーニング不要のセマンティック・マルチオブジェクト追跡パイプラインTF-SMOTを提案する。
  • TF-SMOTは、検出、プロンプト可能なSAM2のマスクベース追跡、InternVideo2.5によるビデオ言語生成という、事前学習済みコンポーネントを組み合わせて構築される。
  • 相互作用のセマンティクスについては、相互作用述語を根拠付け(grounding)し、グロス(釈義)ベースの意味検索を用いてBenSMOT WordNetのシノンセットへ写像する。さらに、曖昧性の解消にはLLMを用いる。
  • BenSMOTベンチマークでの実験により、SMOT設定において最先端の追跡性能が示されるとともに、従来手法よりも要約/キャプションの品質が向上することが明らかになった。
  • 相互作用認識の性能は、厳密な完全一致評価によって依然として制約されている。アブレーション結果から、意味的な重なり(semantic overlap)やWordNetラベルの粒度が、測定される結果に強く影響することが示唆される。

概要: セマンティック・マルチオブジェクト・トラッキング(SMOT)は、ビデオ要約、インスタンス単位のキャプション、インタラクションラベルといったセマンティックな出力でマルチオブジェクト・トラッキングを拡張し、軌跡から動的シーンを人が解釈できる記述へ移行することを目指しています。既存のSMOTシステムはエンドツーエンドで学習されており、進捗が高コストな教師データに結び付くため、新しい基盤モデルや新しいインタラクションに対して迅速に適応する能力が制限されています。そこで本研究では、TF-SMOTという学習不要(training-free)のSMOTパイプラインを提案します。TF-SMOTは、検出、マスクベースのトラッキング、動画言語生成のための事前学習済みコンポーネントを組み合わせます。TF-SMOTは、D-FINEとプロンプト可能なSAM2セグメンテーション・トラッカーを組み合わせて時間的に一貫したトラックレットを生成し、輪郭に基づくグラウンディングによりInternVideo2.5で動画要約とインスタンスキャプションを生成します。さらに、抽出したインタラクション述語を、グロス(定義文)に基づくセマンティック検索とLLMによる曖昧性解消により、BenSMOT WordNetのsynset(同義語セット)へ整列させます。BenSMOTにおいて、TF-SMOTはSMOT設定下で最先端のトラッキング性能を達成し、先行研究と比べて要約とキャプションの品質も向上します。しかし、インタラクション認識は、きめ細かくかつ裾野の広いWordNetラベル空間に対する厳密な完全一致評価の下では依然として困難です。分析とアブレーションの結果から、セマンティックな重なりとラベルの粒度が、測定される性能に大きく影響することが示されています。

視覚言語モデルによるトレーニング不要のセマンティック・マルチオブジェクト追跡 | AI Navigate