AI Navigate

EmergeNav: 連続環境におけるゼロショット視覚言語ナビゲーションのための構造化された具現化推論

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • EmergeNav は、タスク固有のトレーニングや明示的な地図に依存せず、構造化された具現化推論を用いる連続ビジョン・言語ナビゲーション(VLN-CE)向けのゼロショットフレームワークである。
  • モデルは、Plan–Solve–Transition 階層を用いた段階構造化実行、目標条件付き知覚抽出のための GIPE、進捗の根拠づけのための対照的な二重記憶推論、時刻同期された局所制御と境界検証のための Dual-FOV センシングを導入する。
  • VLN-CE に対して強力なゼロショット性能を発揮し、Qwen3-VL-8B で 30.00 SR、Qwen3-VL-32B で 37.00 SR を報告しており、オープンソースの VLM バックボーンのみを使用し、タスク固有のトレーニングは実施していない。
  • 結果は、明示的な実行構造が、ビジョン-ランゲージモデルの事前知識を安定した具現化ナビゲーション挙動へ転換するための重要な要素であることを示唆しており、明示的な地図、グラフ探索、ウェイポイント予測器に依存することなく実現できる。

要約: 連続する環境におけるゼロショット視覚と言語のナビゲーション(VLN-CE)は、現代の視覚-言語モデル(VLMs)にとって依然として困難です。これらのモデルは有用な意味的事前知識を組み込んでいるものの、そのオープンエンドな推論は長期にわたる安定した具現化実行へ直接結びつきません。私たちは、鍵となるボトルネックは単なる知識の欠如ではなく、指示追従の整理、知覚の基礎づけ、時間的進行、段階検証を組織する実行構造の欠如であると主張します。私たちは、連続VLNを構造化された具現化推論として定式化するゼロショットフレームワーク EmergeNav を提案します。EmergeNav は、段階構造化された実行のための Plan--Solve--Transition ヒエラルキー、目標条件付き知覚抽出のための GIPE、進捗の基盤づけのための対照的なデュアルメモリ推論、時間を揃えた局所制御と境界検証のための役割分離型 Dual-FOV センシングを組み合わせます。VLN-CE において、EmergeNav は、オープンソースの VLM バックボーンのみを使用し、タスク特異的な訓練、明示的な地図、グラフ探索、ウェイポイント予測器を用いずに、強力なゼロショット性能を達成します。Qwen3-VL-8B で 30.00 SR、Qwen3-VL-32B で 37.00 SR に到達します。これらの結果は、VLM の事前知識を安定した具現化ナビゲーション行動へ転換するためには、明示的な実行構造が重要な要素であることを示唆しています。