概要: 未知の環境における視覚ベースのナビゲーションで、マルチモーダル大規模言語モデル(MLLMs)を用いることで画期的な進展が達成されました。これらのモデルは、各時刻ステップにおける現在の視界を、エージェントに与えられた課題と目標に照らして評価することで、一連の動作を計画できます。しかし、MLLM により駆動される現在のゼロショットの Vision-and-Language Navigation(VLN)エージェントは、依然として進路から逸れてしまう、途中で行動を止めてしまう、そして全体としての成功率が低い傾向があります。そこで本研究では、これらの失敗を打ち消すために Three-Step Nav を提案します。これは三つの視点に基づくプロトコルです。まず「look forward(前方を見る)」により、グローバルなランドマークを抽出し、大まかな計画をスケッチします。次に「look now(今を見る)」で、現在の視覚観測を次のサブ目標に合わせて、より細かなガイダンスを行います。最後に「look backward(後方を見る)」により、停止する前に軌跡全体を監査して、蓄積したドリフトを修正します。勾配更新やタスク固有の微調整を一切不要とすることで、本プランナは最小限のオーバーヘッドで既存の VLN パイプラインにそのまま組み込めます。Three-Step Nav は、R2R-CE および RxR-CE データセットにおいてゼロショットの最先端性能を達成しました。コードは https://github.com/ZoeyZheng0/3-step-Nav で公開しています。
Three-Step Nav:ゼロショット視覚・言語ナビゲーションのための階層的グローバル–ローカルプランナー
arXiv cs.CV / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、マルチモーダルLLMを用いたゼロショット視覚・言語ナビゲーション向けの階層的なグローバル–ローカル計画手法「Three-Step Nav」を提案します。
- MLLM-VLNで起きやすい失敗(コースからの逸脱や早すぎる停止など)に対し、「look forward(前を見る)」「look now(今を見る)」「look backward(後で監査する)」の3段階プロトコルで対処します。
- 勾配更新やタスク固有のファインチューニングを必要とせず、既存のVLNパイプラインに最小限のオーバーヘッドで組み込める点が特徴です。
- R2R-CEおよびRxR-CEベンチマークでゼロショットの最先端性能を達成したとされ、コードはGitHubで公開されています。
