広告

SpatialFly:都市環境におけるUAVの視覚と言語によるナビゲーションのための、ジオメトリ誘導表現アラインメント

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SpatialFlyは、明示的な3D再構成を必要としない、複雑な3D都市環境におけるUAV視覚・言語ナビゲーションのためのジオメトリ誘導表現アラインメント・フレームワークである。
  • 2Dのセマンティック・トークンにグローバルな幾何学的構造の手がかりを注入し、その後、幾何学を考慮した再パラメータ化とクロスモーダル・アテンションを用いて、2Dのセマンティック・トークンを3Dの幾何学的トークンへアラインメントする。さらに、ゲート付き残差融合によりセマンティックな弁別性を保持する。
  • 実験(見えている環境および見えていない環境)では、UAV VLNベースラインに対して一貫した改善が示されており、NEで4.03mの削減と、見えていないFull分割で最強のベースラインに対してSRが1.27%向上している。
  • 走行(軌跡)分析では、経路のアラインメントの改善と、より滑らかで安定した運動が示される。これは、本手法がナビゲーション精度だけでなく、空間推論の品質を高めていることを示唆している。
  • 本研究は、2Dの視覚知覚と3Dの軌跡意思決定空間の間に存在する構造的表現の不一致を橋渡しし、VLNにおける空間推論を強化することに焦点を当てている。

Abstract

UAVは、自律的な探索、災害対応、インフラ点検といったアプリケーションにおいて重要な役割を果たします。 しかし、複雑な3D環境におけるUAV VLNは依然として困難です。 主な難しさは、2Dの視覚認識と3Dの軌跡決定空間との間に構造的な表現の不一致があることで、これが空間推論を制限します。 そこで本研究では、UAV VLNのためのジオメトリ誘導型の空間表現フレームワークであるSpatialFlyを提案します。 明示的な3D再構成を行わず、RGB観測のみに基づいて動作するSpatialFlyは、ジオメトリ誘導型の2D表現アラインメント機構を導入します。 具体的には、幾何学的事前知識注入モジュールが、シーン全体の幾何学的ガイダンスを与えるために、2D意味トークンへグローバルな構造手がかりを注入します。 続いて、幾何学に対応した再パラメータ化モジュールが、クロスモーダル注意機構を通じて2D意味トークンを3D幾何学トークンに整合させ、その後、ゲート付き残差融合によって意味の識別性を保持します。 実験結果は、SpatialFlyが、見たことのある環境および見たことのない環境の両方において、最先端のUAV VLNベースラインを一貫して上回り、NEを4.03m低減し、見たことのないFull分割で最も強力なベースラインに対してSRを1.27%向上させることを示しています。 さらに、軌跡レベルの分析では、SpatialFlyがより良い経路アラインメントを持つ軌跡と、より滑らかで安定した運動を生成することが示されています。

広告