SpatialFly:都市環境におけるUAVの視覚と言語によるナビゲーションのための、ジオメトリ誘導表現アラインメント
arXiv cs.CV / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SpatialFlyは、明示的な3D再構成を必要としない、複雑な3D都市環境におけるUAV視覚・言語ナビゲーションのためのジオメトリ誘導表現アラインメント・フレームワークである。
- 2Dのセマンティック・トークンにグローバルな幾何学的構造の手がかりを注入し、その後、幾何学を考慮した再パラメータ化とクロスモーダル・アテンションを用いて、2Dのセマンティック・トークンを3Dの幾何学的トークンへアラインメントする。さらに、ゲート付き残差融合によりセマンティックな弁別性を保持する。
- 実験(見えている環境および見えていない環境)では、UAV VLNベースラインに対して一貫した改善が示されており、NEで4.03mの削減と、見えていないFull分割で最強のベースラインに対してSRが1.27%向上している。
- 走行(軌跡)分析では、経路のアラインメントの改善と、より滑らかで安定した運動が示される。これは、本手法がナビゲーション精度だけでなく、空間推論の品質を高めていることを示唆している。
- 本研究は、2Dの視覚知覚と3Dの軌跡意思決定空間の間に存在する構造的表現の不一致を橋渡しし、VLNにおける空間推論を強化することに焦点を当てている。




