QTrack: クエリ駆動推論によるマルチモーダル多物体追跡

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

QTrack は、自然言語クエリで指定されたターゲットのみを局所化・追跡するクエリ駆動の追跡パラダイムを導入し、時間的整合性とアイデンティティの一貫性を維持する。
著者らは、アイデンティティの漏洩を防ぎ、堅牢な一般化評価を可能にするシーケンスレベルの分割を備えた RMOT26 という大規模なグラウンデッド・クエリ MOT ベンチマークを構築した。
彼らは、エンドツーエンドの視覚言語モデル QTrack を提案し、マルチモーダル推論と追跡志向の局在化を統合する。
時間的知覚を考慮したポリシー最適化法と構造化報酬を導入し、動きに配慮した推論を促進する。
広範な実験により言語誘導追跡の有効性を実証し、著者らは提供された GitHub URL でコードとデータを公開する。

要約: マルチオブジェクト追跡（MOT）は、これまでビデオ内の全てのオブジェクトの軌跡を推定することに焦点を当てており、意味的指示の下でユーザー指定のターゲットについて選択的に推論することは行われていませんでした。本研究では、自然言語クエリを条件として追跡を時空間推論問題として定式化する、クエリ駆動型追跡パラダイムを提案します。参照フレーム、ビデオ列、およびテキストクエリが与えられた場合、クエリで指定されたターゲットのみを局所化・追跡しつつ、時間的一貫性とアイデンティティの一貫性を維持することを目的とします。この設定をサポートするため、根拠づけられたクエリとシーケンスレベルの分割を備え、アイデンティティの漏洩を防止して一般化の頑健な評価を可能にする大規模ベンチマーク RMOT26 を構築します。さらに、マルチモーダル推論を追跡指向の局在化と統合するエンドツーエンドのビジョン-言語モデルである QTrack を紹介します。また、動き認識を促す推論を奨励する、構造化報酬を伴う時間知覚対応のポリシー最適化戦略を導入します。広範な実験により、推論を中心とした言語誘導型追跡に対する本手法の有効性が示されています。コードとデータは https://github.com/gaash-lab/QTrack で入手可能です。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

QTrack: クエリ駆動推論によるマルチモーダル多物体追跡

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer