抽象: 視覚ナビゲーションは、自律的な家庭支援ロボットにとって基盤となる能力であり、物体探索のような長期的なタスクを可能にします。近年の手法では、大規模言語モデル(LLM)を活用して常識的な推論を取り込み、探索効率を高めることが試みられていますが、それらの計画はテキスト表現により制約されており、空間の占有やシーンの幾何学を十分に捉えることができません。これはナビゲーション判断にとって重要な要素です。そこで本研究では、視覚言語モデル(VLM)が、オンボードのRGB/RGB-Dストリームのみを用いて、マップレスな視覚ナビゲーションを実現できるかどうかを探ります。これにより、空間認識と計画の潜在力を引き出します。我々は、想像力に動力を得たナビゲーションの枠組み、ImagineNav++を通じてこの目的を達成します。この枠組みでは、ロボットの候補ビューから将来の観測画像を想像し、VLMのための単純な最良ビュー選択問題へとナビゲーション計画を変換します。まず、将来ビューの想像モジュールが、人間のナビゲーション嗜好を蒸留して、探索の可能性が高い意味的に有意な視点を生成します。これらの想像されたビューは、その後、VLMへの視覚的プロンプトとして機能し、最も有益な視点を特定します。空間的な整合性を維持するために、選択的フョーブレーション・メモリ機構を開発します。この機構は、疎から密への枠組みにより重要となるキーフレーム観測を階層的に統合し、長期的な空間推論のための、コンパクトでありながら包括的なメモリを構築します。このアプローチにより、目標指向のナビゲーションを一連の、扱いやすいポイントゴール・ナビゲーション課題へと変換します。オープンボキャブラリの物体およびインスタンス・ナビゲーションのベンチマークに対する大規模な実験の結果、ImagineNav++はマップレス設定においてSOTAの性能を達成し、さらに多くのマップベース手法をも上回ることが示されました。これは、VLMベースの空間推論において、シーンの想像とメモリが重要であることを強調しています。
ImagineNav++:シーン想像による身体性ナビゲーションとしての視覚言語モデルへのプロンプト
arXiv cs.RO / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ImagineNav++は、テキストのみでの計画にある空間占有やシーン幾何を捉えにくい制約に対処しつつ、オンボードのRGB/RGB-DストリームだけでVLM(視覚言語モデル)による地図なし視覚ナビゲーションを実現できるかを検証します。
- 同手法では、候補となるロボット視点から「未来の観測画像」を想像し、それを基にナビゲーション計画をVLMが視覚プロンプトとして解く「最も有益な視点の選択」問題へと置き換えます。
- 未来視点の想像モジュールにより、人間のナビゲーション嗜好を反映しつつ探索可能性の高い意味的に妥当な視点を生成します。
- 空間推論の一貫性を保つため、selective foveation memory(選択的中心窩メモリ)を導入し、キーフレーム観測を疎から密へ統合する階層的手法でコンパクトな長期空間メモリを構築します。
- オープンボキャブラリの物体・インスタンスナビゲーションのベンチマークで、地図なし設定におけるSOTA性能が示され、マップベース手法を上回るケースもあると報告されています。




