要旨: ロボティクスにおける視覚ナビゲーションは、詳細な地図を必要としないように、人が視覚的手がかりと記憶を用いて環境を移動できる能力に触発されています。しかし、未見で未地図化、またはGPSが利用できない状況では、従来のメトリック(距離に基づく)な地図ベース手法がうまく機能せず、そのため、最小限の探索で済む学習ベースのアプローチへと関心が移っています。本研究では、ナビゲーションの意思決定プロセスを複数のレベルに分解する階層的フレームワークを開発します。提案手法は、シンプルで転移可能なウェイポイント選択ネットワークを通じて、サブゴールを選択することを学習します。本アプローチの重要な構成要素は、距離の代理として視覚的類似性のみによって整理された潜在空間メモリモジュールです。グラフベースのトポロジカル表現に代わるこの方法は、ナビゲーション課題に対して十分であり、コンパクトで軽量、学習しやすいナビゲータを提供します。このナビゲータは、新しい場所においても目的地へたどり着くことができます。訓練または推論において、オドメトリ(自己位置推定のための移動量推定)を一切使用せずに、Habitat AI 環境で、複数のSOTA手法と競争力のある結果を示します。さらに、インタラクティブなナビゲーションに向けて、フレームワークの解釈可能性を活かす追加の貢献を行います。すなわち、すべての試行で成功を達成するために、どれくらいの方向に関する介入/相互作用が必要なのか、という問いを考えます。わずかな人間の関与であっても、全体のナビゲーション性能を大きく向上できることを示します。
FeudalNav:視覚ナビゲーションのためのシンプルなフレームワーク
arXiv cs.RO / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、詳細なメートル地図に頼らずにGPSが使えない、あるいは未地図の環境でも動作することを目指した視覚ナビゲーションのための階層型学習フレームワーク「FeudalNav」を提案する。
- サブゴール選択は、転用可能なウェイポイント選択ネットワークによって学習し、距離の代替として「視覚類似性」だけで整理された潜在空間メモリを用いる。
- グラフ型・トポロジー型表現を使わずともナビゲーション課題に十分であり、軽量でコンパクト、かつ学習しやすいナビゲータを実現する。
- Habitat AI環境で、学習時・推論時ともにオドメトリを使用しない条件で、複数の最先端手法と競争力のある結果が示される。
- さらに、インタラクティブなナビゲーションを可能にする解釈性に着目し、成功までにどれくらい人の方向介入/相互作用が必要かを検証した結果、最小限の人の関与でも試行全体の性能が大きく向上することが示される。




