Three-Step Nav：ゼロショット視覚・言語ナビゲーションのための階層的グローバル–ローカルプランナー

arXiv cs.CV / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、マルチモーダルLLMを用いたゼロショット視覚・言語ナビゲーション向けの階層的なグローバル–ローカル計画手法「Three-Step Nav」を提案します。
MLLM-VLNで起きやすい失敗（コースからの逸脱や早すぎる停止など）に対し、「look forward（前を見る）」「look now（今を見る）」「look backward（後で監査する）」の3段階プロトコルで対処します。
勾配更新やタスク固有のファインチューニングを必要とせず、既存のVLNパイプラインに最小限のオーバーヘッドで組み込める点が特徴です。
R2R-CEおよびRxR-CEベンチマークでゼロショットの最先端性能を達成したとされ、コードはGitHubで公開されています。

概要: 未知の環境における視覚ベースのナビゲーションで、マルチモーダル大規模言語モデル（MLLMs）を用いることで画期的な進展が達成されました。これらのモデルは、各時刻ステップにおける現在の視界を、エージェントに与えられた課題と目標に照らして評価することで、一連の動作を計画できます。しかし、MLLM により駆動される現在のゼロショットの Vision-and-Language Navigation（VLN）エージェントは、依然として進路から逸れてしまう、途中で行動を止めてしまう、そして全体としての成功率が低い傾向があります。そこで本研究では、これらの失敗を打ち消すために Three-Step Nav を提案します。これは三つの視点に基づくプロトコルです。まず「look forward（前方を見る）」により、グローバルなランドマークを抽出し、大まかな計画をスケッチします。次に「look now（今を見る）」で、現在の視覚観測を次のサブ目標に合わせて、より細かなガイダンスを行います。最後に「look backward（後方を見る）」により、停止する前に軌跡全体を監査して、蓄積したドリフトを修正します。勾配更新やタスク固有の微調整を一切不要とすることで、本プランナは最小限のオーバーヘッドで既存の VLN パイプラインにそのまま組み込めます。Three-Step Nav は、R2R-CE および RxR-CE データセットにおいてゼロショットの最先端性能を達成しました。コードは https://github.com/ZoeyZheng0/3-step-Nav で公開しています。

工場に訪れる自動化の地殻変動、米中と違う3つの勝ち筋

日経XTECH

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

日経XTECH

米国企業のAI投資が増加し続ける中、中国企業はAI投資に圧力

SCMP Tech

プロンプトキャッシュの“よくあるミス”が必要以上に70%高くつかせる理由

Dev.to

AIエージェントのためのDNSベース発見プロトコルを作りました――仕組みはこうなっています

Dev.to

Three-Step Nav：ゼロショット視覚・言語ナビゲーションのための階層的グローバル–ローカルプランナー

要点

関連記事

工場に訪れる自動化の地殻変動、米中と違う3つの勝ち筋

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

米国企業のAI投資が増加し続ける中、中国企業はAI投資に圧力

プロンプトキャッシュの“よくあるミス”が必要以上に70%高くつかせる理由

AIエージェントのためのDNSベース発見プロトコルを作りました――仕組みはこうなっています

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer