遮蔽を考慮した計画によるインスタンス単位のビジュアル・アクティブ・トラッキング

arXiv cs.CV / 2026/4/24

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、カメラを3D空間のターゲットに追従させる「Visual Active Tracking（VAT）」を対象に、現実運用での課題である“紛らわしい見た目のディストラクタ”と“遮蔽時の失敗”を同時に解決するOA-VATを提案しています。
OA-VATは、学習不要のInstance-Aware Offline Prototype Initializationで、DINOv3に基づくマルチビューの特徴（データ拡張込み）を集約して判別的なインスタンス・プロトタイプを構築し、見た目が似た対象による混乱を抑えます。
オンライン側ではプロトタイプを強化し、さらに信頼度を考慮したカルマンフィルタを組み込むことで、外観や運動の変化があっても追跡を安定化します。
遮蔽からの復帰には、新たに作成したPlanning-20kデータセットで訓練したOcclusion-Aware Trajectory Plannerを追加し、条件付き拡散で障害物を回避する経路を生成します。
実験ではUnrealCVで平均SR 0.93、RTX 3090上で35 FPS、またリアル世界データで平均CAR 90.8%などを達成し、TrackVLAやGC-VATと比べて改善が報告されています。

概要: 視覚アクティブ・トラッキング（VAT）は、3D空間内のターゲットを追従するためにカメラを制御することを目的としており、ドローンの航法やセキュリティ監視といった用途で重要です。しかし、実環境での運用には2つの主要なボトルネックがあります。1つは、インスタンス単位の弁別性が不十分で、見た目が似ている視覚的な撹乱要素（ディストラクタ）によって混乱が生じることです。もう1つは、能動的な計画がないために、遮蔽（オクルージョン）下での性能が深刻に失敗することです。これらに対処するために、3つの相補的なモジュールを備えた統一パイプラインであるOA-VATを提案します。まず、訓練不要のInstance-Aware Offline Prototype Initializationは、DINOv3を通じてマルチビューの拡張特徴を集約し、弁別的なインスタンス・プロトタイプを構築することで、ディストラクタによる混乱を軽減します。次に、Online Prototype Enhancement Trackerはプロトタイプをオンラインで強化し、信頼度を考慮したカルマンフィルタを統合することで、外観や運動の変化があっても安定したトラッキングを実現します。第3に、Occlusion-Aware Trajectory Plannerは、新しいPlanning-20kデータセットで訓練されており、条件付き拡散を用いて遮蔽回復のための障害物回避経路を生成します。実験の結果、OA-VATはUnrealCVで平均SRが0.93（SOTAのTrackVLAに対して+2.2%）を達成し、実世界データセットで平均CARが90.8%（SOTAのGC-VATに対して+12.1%）となり、DJI Telloドローンで平均TSRが81.6%を達成しました。RTX 3090で35 FPSで動作し、実運用に向けて頑健でリアルタイムな性能を提供します。