空中ロボットのための視覚言語ナビゲーション:大規模言語モデルの時代へ向けて

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、空中視覚と言語ナビゲーション(Aerial VLN)を調査し、UAVが複雑な3次元環境を移動するために、自然言語の指示を視覚知覚へどのように接地(grounding)できるかに焦点を当てる。
  • Aerial VLN問題を形式化し、2つの相互作用パラダイム――単一指示によるナビゲーションと対話ベースのナビゲーション――を、この分野の主要な軸として区別する。
  • 既存手法を5つのアーキテクチャカテゴリ(シーケンス・ツー・シーケンス/注意、エンドツーエンドのLLM/VLM、階層型、マルチエージェント、対話ベース)に分類し、それぞれの設計上の狙い、トレードオフ、性能を比較する。
  • 本調査は、空中VLN研究のエコシステムを評価し、データセット、シミュレーション基盤、評価指標における限界を分析する。特に、スケール、環境多様性、実環境での接地、指標の網羅性に関して論じる。
  • 7つの主要な未解決課題(例:長期視野での接地、視点頑健性、スケーラブルな空間表現、連続的な6自由度制御、オンボード実装、ベンチマークの標準化、マルチUAVスウォームナビゲーション)を統合して提示する。