要旨: 基盤モデルによって駆動される、訓練不要の視覚言語ナビゲーション(VLN)エージェントは、指示に従い、3D環境を探索できます。しかし既存の手法は、貪欲なフロンティア選択と受動的な空間メモリに依存しているため、局所的な往復運動や冗長な再訪といった非効率なふるまいにつながります。我々は、これはメタ認知能力の欠如に起因すると主張します。すなわち、エージェントは探索の進捗を監視できず、戦略の失敗を診断できず、状況に応じて適応できないのです。これに対処するため、空間メモリ、履歴を意識した計画、そして内省的な修正を統合した、メタ認知ナビゲーションエージェントMetaNavを提案します。空間メモリは永続的な3Dセマンティックマップを構築します。履歴を意識した計画は再訪を罰し、効率を高めます。内省的な修正は停滞を検出し、LLMを用いて、将来のフロンティア選択を導く修正ルールを生成します。GOAT-Bench、HM3D-OVON、A-EQAにおける実験により、MetaNavは最先端の性能を達成しつつ、VLMへのクエリ数を20.7%削減することが示されます。これにより、メタ認知的推論が頑健性と効率を大幅に改善することが実証されます。
迷子にならない:メタ認知的推論による効率的なビジョン・ランゲージナビゲーション
arXiv cs.RO / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 従来のビジョン・ランゲージ・ナビゲーション(VLN)エージェントは、貪欲なフロンティア選択や弱い(受動的な)空間メモリのために非効率な判断をしがちであり、その結果として局所的な往復運動や冗長な再訪といった挙動が生じる。
- 本論文では、こうした失敗の原因を、探索の進捗を監視すること、戦略の破綻を診断すること、行き詰まりの際に適応することなどのメタ認知能力の欠如にあると位置づける。
- 学習不要のメタ認知的ナビゲーションエージェントであるMetaNavを提案する。MetaNavは、永続的な3Dセマンティック空間マップ、再訪を抑制する履歴を考慮した計画、そして停滞から回復するための省察的(リフレクティブ)な修正を組み合わせる。
- 省察的修正では、エージェントが進展していないと検知した際に、より良い将来のフロンティア選択を導く是正ルールをLLMに生成させる。
- GOAT-Bench、HM3D-OVON、A-EQAに関する実験で最先端の結果を報告しており、VLMクエリが20.7%削減されていることから、メタ認知的推論によって頑健性と効率が向上していることが示される。




