空中ロボットのための視覚言語ナビゲーション：大規模言語モデルの時代へ向けて

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、空中視覚と言語ナビゲーション（Aerial VLN）を調査し、UAVが複雑な3次元環境を移動するために、自然言語の指示を視覚知覚へどのように接地（grounding）できるかに焦点を当てる。
Aerial VLN問題を形式化し、2つの相互作用パラダイム――単一指示によるナビゲーションと対話ベースのナビゲーション――を、この分野の主要な軸として区別する。
既存手法を5つのアーキテクチャカテゴリ（シーケンス・ツー・シーケンス／注意、エンドツーエンドのLLM/VLM、階層型、マルチエージェント、対話ベース）に分類し、それぞれの設計上の狙い、トレードオフ、性能を比較する。
本調査は、空中VLN研究のエコシステムを評価し、データセット、シミュレーション基盤、評価指標における限界を分析する。特に、スケール、環境多様性、実環境での接地、指標の網羅性に関して論じる。
7つの主要な未解決課題（例：長期視野での接地、視点頑健性、スケーラブルな空間表現、連続的な6自由度制御、オンボード実装、ベンチマークの標準化、マルチUAVスウォームナビゲーション）を統合して提示する。