概要: ゼロショットのオブジェクト目標ナビゲーションは、自己中心的な観察だけを用いて、未知の環境でターゲットとなるオブジェクトを見つけることを目的とします。近年の手法は、ファウンデーションモデルの理解力と推論能力を活用してナビゲーション性能を高めています。しかし、視点が不適切であったり、意味的手掛かりが弱い場合、ファウンデーションモデルは知覚と計画の両方で信頼性のある推論を支援できず、結果として非効率なナビゲーションや失敗に繋がることがあります。我々は、物体と領域の間の固有の関係が構造化されたシーンの事前情報を符号化しており、部分的な観察下でもエージェントが妥当なターゲットの位置を推定するのに役立つことを観察しています。この洞察に動機づけられ、観測された空間関係と経験に基づく空間関係の両方をモデル化して、知覚と計画の両方を強化する Spatial Relation-aware Navigation (SR-Nav) というフレームワークを提案します。具体的には、SR-Nav はファウンデーションモデルを介してターゲット中心の空間関係を符号化し、リアルタイムの観測に応じて動的に更新する Dynamic Spatial Relationship Graph (DSRG) を最初に構築します。次に、関係認識マッチングモジュールを導入します。これは、単純な検出の代わりに関係マッチングを用い、DSRG における多様な関係を活用して誤りを検証・修正することで、視覚的知覚の頑健性を高めます。最後に、現在位置から DSRG に基づいて最適な経路を動的に計算することで、計画の探索空間を削減する Dynamic Relationship Planning Module を設計し、計画を導き探索の冗長性を低減します。HM3D における実験は、提案手法が成功率とナビゲーションの効率の双方で最先端の性能を達成することを示しています。コードは https://github.com/Mzyw-1314/SR-Nav で公開される予定です。
SR-Nav: ゼロショット物体目標ナビゲーションにおける空間関係の重要性
arXiv cs.CV / 2026/3/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- SR-Navは、観測された空間関係と経験に基づく空間関係の両方を活用して、基盤モデルを用いた知覚と計画を改善するゼロショット物体目標ナビゲーション向けの、空間関係を意識したフレームワークを導入します。
- 対象中心の空間関係を表現するダイナミック空間関係グラフ(DSRG)を構築し、観察の変化に応じてリアルタイムで更新します。
- 関係性を意識したマッチングモジュールは、DSRGから得られる多様な関係を用いて検出を検証・訂正し、視覚知覚の頑健性を高めます。
- ダイナミック関係計画モジュールは、DSRGから最適経路を算出することで計画の探索空間を削減し、計画を導き、探索の冗長性を低減します。
- HM3Dでの実験結果は、成功率とナビゲーション効率の両方において最先端の性能を報告しており、コードは提供されたリンクのGitHubで公開される予定です。