要旨: 視覚と言語のナビゲーション(VLN)は、近年マルチモーダル大規模言語モデル(MLLM)の恩恵を受け、ゼロショットでのナビゲーションが可能になっている。探索ベースの最近のゼロショット手法は、グローバルなシーン事前知識を活用することで有望な結果を示しているが、高品質な人手によるシーン再構成に依存しており、現実のロボットへの実展開には不適である。未知の環境に遭遇したとき、ロボットは事前探索(pre-exploration)を通じて自らの事前知識を構築すべきである。しかし、このように自作した再構成は必然的に不完全でノイズを含むため、高品質なシーン再構成を前提とする手法を大きく劣化させる。これらの問題に対処するため、我々は不完全な自己再構成と頑健な実行をつなぐことを目的としたゼロショット・ナビゲーションの枠組みである SpatialAnt を提案する。SpatialAnt は、単眼ベースの再構成に対して絶対的なメートル尺度を回復するための物理的な基底付け戦略(physical grounding strategy)を導入する。さらに、ノイズを含む自己再構成されたシーンを絶対的な空間参照として扱うのではなく、新規の視覚的予見(visual anticipation)メカニズムを提案する。このメカニズムはノイズのある点群を用いて将来の観測をレンダリングし、エージェントが反実仮想(counterfactual)推論を行い、人間の指示と矛盾する経路を刈り込むことを可能にする。シミュレート環境と実世界環境の両方で行った大規模な実験により、SpatialAnt が既存のゼロショット手法を大幅に上回ることを示す。R2R-CE ベンチマークで 66% の成功率(SR)を達成し、RxR-CE ベンチマークでは 50.8% SR を達成する。Hello Robot への物理的な実装によっても、厳しい現実環境において 52% SR を達成し、我々の枠組みの効率性と有効性がさらに裏付けられる。
SpatialAnt: アクティブなシーン再構成と視覚的予測による自律ゼロショット・ロボットナビゲーション
arXiv cs.RO / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SpatialAntは、質の高い人手によるシーン再構成に依存する既存手法の、現実世界における失敗モードを対象とするゼロショットの視覚と言語ナビゲーション枠組みとして提案される。
- このアプローチは、学習済み事前知識におけるスケールの曖昧性を低減するために、絶対的なメートルスケールを復元する物理的なグラウンディング戦略を追加し、単眼ベースの自己再構成を改善する。
- ノイズのある自己再構成シーンを信頼できる空間参照として扱うのではなく、SpatialAntは視覚的予測を用いて、ノイズのあるポイントクラウドから将来の観測をレンダリングし、指示と矛盾する経路を棄却するための反事実(counterfactual)推論を行う。
- シミュレーション環境および現実環境の両方での実験により、先行するゼロショット手法に対して大幅な改善が示され、R2R-CEで66%の成功率、RxR-CEで50.8%を達成する。
- Hello Robotでの実機展開により、実用的な有効性が検証され、困難な現実環境で52%の成功率が報告されている。


