HTNav: 都市部の航空ビジョンと言語ナビゲーションのための階層型構造を備えたハイブリッドナビゲーションフレームワーク

arXiv cs.RO / 2026/4/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複雑な環境における航空(都市部)ナビゲーション向けに設計された新しいハイブリッド・ビジョンと言語ナビゲーション・フレームワークであるHTNavを提案する。
  • 階段状の学習戦略を用いて、模倣学習(IL)と強化学習(RL)を組み合わせることで、主要なナビゲーション挙動の安定性を維持しつつ探索性能を向上させる。
  • HTNavは、マクロレベルの経路計画と微細な行動制御を連携させるための階層型の意思決定メカニズムを採用する。
  • オープンドメインで動作する際の空間的連続性をより適切に捉えるため、地図表現学習モジュールを追加する。
  • CityNavベンチマークにおいて、著者らはシーンのレベルおよび難易度の各区分にわたって最先端の結果を報告しており、精度と頑健性の向上が示されている。

要旨: 一般的な視覚と言語に基づくナビゲーション(VLN)タスクに触発されて、航空(aerial)VLNは、物流配送や都市の点検といった実用的な価値が大きいことから、広く注目を集めてきました。しかし、既存の手法は、未見のシーンへの汎化の不足、長距離の経路計画における性能の最適でないこと、空間的な連続性の理解が不十分であることなど、複雑な都市環境においていくつかの課題に直面しています。これらの課題に対処するために、本論文では、Imitation Learning(IL)とReinforcement Learning(RL)をハイブリッドIL-RLフレームワーク内で統合する新しい協調型ナビゲーション枠組みHTNavを提案します。本フレームワークは、基本となるナビゲーション戦略の安定性を確保しつつ、環境探索能力を高めるために、段階的な学習メカニズムを採用します。階層化された意思決定メカニズムを組み込むことで、大域レベルの経路計画と、きめ細かな行動制御との協調的な相互作用を実現します。さらに、地図表現学習モジュールを導入し、オープンドメインにおける空間的連続性の理解を深めます。CityNavベンチマークにおいて、提案手法は、すべてのシーンレベルとタスクの難易度にわたって最先端の性能を達成します。実験結果は、このフレームワークが複雑な都市環境におけるナビゲーションの精度と頑健性を大幅に改善することを示しています。