UAV-Track VLA:視覚・言語・行動モデルによるエンボディド空中追跡

arXiv cs.RO / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複雑で意味的に要求の高い都市部のUAVシナリオを対象とした、エンボディド空中追跡のためのVision-Language-Action(VLA)モデル「UAV-Track VLA」を提案する。
  • 長期ホライズンのUAV追跡研究を標準化するため、新たなマルチモーダル追跡評価ベンチマークと、大規模データセット(890K超のフレーム、176タスク、85オブジェクト)を構築する。
  • UAV-Track VLAは、π0.5アーキテクチャを改良し、フレーム間のダイナミクスを捉えるための時間圧縮ネットワークを追加することで、冗長な時間的特徴を削減する。
  • 本モデルは、空間を意識した補助グラウンディングヘッドを備えたデュアルブランチ・デコーダと、フローマッチングによる行動エキスパートを用いることで、クロスモーダル特徴をより適切に分離し、きめ細かな連続行動を出力する。
  • CARLAシミュレータでの実験により、長距離の歩行者追跡で大きな改善(成功率61.76%、平均フレーム269.65)、未見環境へのゼロショット汎化の向上、ならびに単一ステップ遅延の33.4%低減(0.0571s)によるよりリアルタイムな制御が示される。

Abstract

身体化されたビジュアル・トラッキングは、複雑な現実世界のタスクを実行する無人航空機(UAV)にとって重要である。複雑なセマンティック要件を伴う動的な都市シナリオでは、ビジョン・言語・アクション(VLA)モデルは、クロスモーダル融合と継続的なアクション生成能力により、大きな可能性を示している。こうした環境におけるマルチモーダル・トラッキングをベンチマークするために、専用の評価ベンチマークと、大規模データセット(890Kフレーム超、176タスク、85種類の多様な対象物を含む)を構築する。さらに、既存のVLAモデルにおける時間的特徴の冗長性と、空間幾何学的な事前知識の欠如に対処するため、改良されたVLAトラッキングモデルであるUAV-Track VLAを提案する。我々のモデルは\pi_{0.5}アーキテクチャに基づき、フレーム間のダイナミクスを効率的に捉えるための時間圧縮ネットを導入する。加えて、空間に配慮した補助グラウンディングヘッドと、フローマッチングによるアクション・エキスパートから成る並列のデュアルブランチ・デコーダを設計し、クロスモーダル特徴をデカップルして、きめ細かな連続アクションを生成する。CARLAシミュレータにおける体系的な実験により、本手法の優れたエンドツーエンド性能が検証される。特に、長距離の歩行者トラッキングという難しいタスクにおいて、UAV-Track VLAは61.76\%の成功率と269.65の平均トラッキングフレームを達成し、既存のベースラインを大幅に上回る。さらに、未見環境における頑健なゼロショット汎化を示し、元の\pi_{0.5}と比べて単一ステップ推論レイテンシを33.4\%削減(0.0571sへ)し、高効率なリアルタイムUAV制御を可能にする。データサンプルおよびデモ動画は以下で利用可能: https://github.com/Hub-Tian/UAV-Track\_VLA。