AI Navigate

QTrack: クエリ駆動推論によるマルチモーダル多物体追跡

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • QTrack は、自然言語クエリで指定されたターゲットのみを局所化・追跡するクエリ駆動の追跡パラダイムを導入し、時間的整合性とアイデンティティの一貫性を維持する。
  • 著者らは、アイデンティティの漏洩を防ぎ、堅牢な一般化評価を可能にするシーケンスレベルの分割を備えた RMOT26 という大規模なグラウンデッド・クエリ MOT ベンチマークを構築した。
  • 彼らは、エンドツーエンドの視覚言語モデル QTrack を提案し、マルチモーダル推論と追跡志向の局在化を統合する。
  • 時間的知覚を考慮したポリシー最適化法と構造化報酬を導入し、動きに配慮した推論を促進する。
  • 広範な実験により言語誘導追跡の有効性を実証し、著者らは提供された GitHub URL でコードとデータを公開する。

要約: マルチオブジェクト追跡(MOT)は、これまでビデオ内の全てのオブジェクトの軌跡を推定することに焦点を当てており、意味的指示の下でユーザー指定のターゲットについて選択的に推論することは行われていませんでした。 本研究では、自然言語クエリを条件として追跡を時空間推論問題として定式化する、クエリ駆動型追跡パラダイムを提案します。 参照フレーム、ビデオ列、およびテキストクエリが与えられた場合、クエリで指定されたターゲットのみを局所化・追跡しつつ、時間的一貫性とアイデンティティの一貫性を維持することを目的とします。 この設定をサポートするため、根拠づけられたクエリとシーケンスレベルの分割を備え、アイデンティティの漏洩を防止して一般化の頑健な評価を可能にする大規模ベンチマーク RMOT26 を構築します。 さらに、マルチモーダル推論を追跡指向の局在化と統合するエンドツーエンドのビジョン-言語モデルである QTrack を紹介します。 また、動き認識を促す推論を奨励する、構造化報酬を伴う時間知覚対応のポリシー最適化戦略を導入します。 広範な実験により、推論を中心とした言語誘導型追跡に対する本手法の有効性が示されています。 コードとデータは https://github.com/gaash-lab/QTrack で入手可能です。