概要: 既存の視覚トラッカーは主に非インタラクティブで「一度実行して忘れる(fire-and-forget)」方式で動作しており、人間が介在して(human-in-the-loop)適応を行う必要がある現実のシナリオには適していません。この制約を克服するために、我々はInteractive Tracking(インタラクティブ・トラッキング)という新しいパラダイムを提案します。これは、自然言語コマンドによって、ユーザがいつでもトラッカーを誘導できる仕組みです。この方向性の研究を支えるために、我々は3つの主要な貢献を行います。第一に、インタラクティブ・トラッキングのための初の大規模ベンチマークであるInteractTrackを提示します。これは、150本の動画と、密なバウンディングボックス注釈、およびタイムスタンプ付きの言語指示を含みます。第二に、包括的な評価プロトコルを提案し、代表的な25のトラッカーを評価します。その結果、最先端手法はインタラクティブな状況では失敗することを示します。従来のベンチマークでの優れた性能は、インタラクティブな設定には転移しません。第三に、ユーザのフィードバックから学習し、それに応じてトラッキング挙動を更新するための動的メモリ機構を用いる新しいベースラインであるInteractive Memory-Augmented Tracking(IMAT)を導入します。我々のベンチマーク、プロトコル、ベースラインは、より知的で適応的かつ協調的なトラッキングシステムを開発するための基盤を確立し、自動化された知覚と人間による誘導のギャップを埋めます。完全なベンチマーク、トラッキング結果、分析は https://github.com/NorahGreen/InteractTrack.git で公開されています。
インタラクティブ・トラッキング:メモリ拡張による適応を伴うヒューマン・イン・ザ・ループ・パラダイム
arXiv cs.CV / 2026/4/3
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ほとんどの視覚トラッキングシステムが「fire-and-forget(投げっぱなし)」型であると主張し、自然言語コマンドによりユーザが任意のタイミングでトラッカーを操作できる、実際のヒューマン・イン・ザ・ループ用途を想定した「インタラクティブ・トラッキング」を提案する。
- 150本の動画、密に注釈されたバウンディングボックス、タイムスタンプ付きの言語指示を備えた新しい大規模ベンチマーク「InteractTrack」を導入し、インタラクティブ・トラッキングの研究を支える。
- 著者らは専用の評価プロトコルを提示し、25の代表的な最先端トラッカーがインタラクティブな状況では十分に機能しないことを示す。これにより、従来のベンチマークで得られた改善が、インタラクティブ条件へ確実に移転されるわけではないことが示唆される。
- ユーザのフィードバックから学習し、時間とともにトラッキング挙動を更新するための動的メモリを用いたベースライン「IMAT(Interactive Memory-Augmented Tracking)」を提案する。
- ベンチマーク、評価用アセット、結果は公開され、より適応的で協調的なトラッキングシステムを構築するための基盤として活用できるようにすることを目的としている。




