概要: ゼロショット物体ナビゲーションでは、エージェントが事前の地図やタスク固有の学習なしに、未見の目標物体を未知の環境で発見することが求められますが、これは依然として大きな課題です。最近のビジョン・ランゲージモデル(VLM)の進歩は、このタスクに対する有望な常識的推論能力を提供します。しかし、これらのモデルは依然として、空間的な幻覚、局所的な探索の行き詰まり、そして高レベルの意味意図と低レベル制御との断絶に悩まされています。この点に関して、私たちはVLMとシームレスに統合する階層型ナビゲーション枠組み「ReMemNav」を提案します。ReMemNavは、パノラマの意味的事前知識とエピソード記憶を、VLMと統合します。VLMの空間推論プロセスを支えるために、「Recognize Anything Model」を導入します。さらに、エピソード意味バッファキューに基づく、適応的なデュアルモーダルの再考メカニズムを設計します。このメカニズムは、歴史的メモリを用いて目標の可視性を積極的に検証し、行き詰まりを防ぐために決定を修正します。低レベルの行動実行においては、ReMemNavは深度マスクを用いて実行可能な行動の系列を抽出し、VLMがそれを実際の空間的移動に対応づける際の最適な行動を選択できるようにします。HM3DおよびMP3Dでの大規模な評価により、ReMemNavが成功率と探索効率の両方において、既存の学習不要なゼロショット・ベースラインを上回ることを示します。具体的には、絶対的な性能向上が顕著であり、HM3D v0.1ではSRとSPLがそれぞれ1.7%と7.0%増加し、HM3D v0.2では18.2%と11.1%増加し、MP3Dでは8.7%と7.9%増加します。
ReMemNav:ゼロショット物体ナビゲーションのための、再考とメモリ増強フレームワーク
arXiv cs.RO / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、空間幻覚、局所的探索のデッドロック、セマンティクスと制御の断絶といった、既存の視覚言語モデルの失敗に着目した、階層型のメモリ増強フレームワークであるReMemNavを提案する。
- ReMemNavは「Recognize Anything Model」を用いてVLMの空間推論をアンカーし、エピソード的セマンティック・バッファに基づく適応的なデュアルモーダルの再考メカニズムを追加することで、目標の可視性を検証し、過去のメモリに基づいて判断を修正する。
- 低レベルの制御では、深度マスクを用いて実行可能な行動系列を計算し、VLMが具体的な空間移動に対応付けられた行動を選べるようにする。
- HM3DおよびMP3Dでの実験により、ReMemNavはトレーニング不要のゼロショット基準手法に比べて、成功率(SR)と経路効率(SPL)の両方を改善することが示されており、データセット分割ごとに絶対的な改善幅は異なる。
- 総じて、本研究は、パノラマ的なセマンティックな事前知識、エピソード的メモリ、深度に導かれた行動の実行可能性を組み合わせることで、タスク固有の学習なしにゼロショット・ナビゲーション性能を大きく向上できることを示している。


