概要: 視覚-言語ナビゲーションでは、エージェントがロングホライズンにわたって首尾一貫した行動を取ることが求められます。そのためには、局所的な視覚コンテキストだけでなく、多段階の指示の中でどこまで進んだかを理解する必要があります。しかし、近年の視覚-言語-アクションモデルは直接的な行動予測に焦点を当てることが多く、また初期の進捗手法は数値としての達成度を予測するため、観測列と指示列のもつ単調な共進行(monotonic co-progression)という性質を見落としています。この洞察に基づき、Progress-Think は意味的な進捗推論を導入し、視覚観測から命令スタイルの進捗を予測することで、より正確なナビゲーションを可能にします。高価なアノテーションなしでこれを達成するために、3段階の枠組みを提案します。最初の段階では、Self-Aligned Progress Pretraining が、視覚履歴と指示プレフィックスの間に新しい微分可能なアライメントを導入することで、推論モジュールをブートストラップします。次に、Progress-Guided Policy Pretraining は学習済みの進捗状態をナビゲーション文脈へ注入し、方策が一貫した行動を取るよう導きます。最後に、Progress-Policy Co-Finetuning では、進捗を意識した強化学習の目的を個別に設計して、両方のモジュールを共同で最適化します。R2R-CE および RxR-CE における実験では、最先端の成功率と効率を示し、意味的な進捗がナビゲーションの前進をより一貫した表現としてもたらすことを実証しています。
Progress-Think:ビジョン・ランゲージナビゲーションのためのセマンティック進捗推論
arXiv cs.RO / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚の局所的文脈や直接の行動予測だけでなく、長期ホライズンのマルチステップ指示に対して「セマンティック進捗」をモデル化する、Vision-Language Navigation(視覚言語ナビゲーション)の手法Progress-Thinkを提案する。
- 既存手法では、観測履歴と指示プレフィックスの間に成り立つ単調な共進行(monotonic co-progression)特性が見落とされていると主張し、視覚観測に基づく進捗推論の動機づけを行う。
- Progress-Thinkは、3段階の学習フレームワークを用いる:微分可能なアラインメントによるSelf-Aligned Progress Pretraining、学習した進捗状態をナビゲーション文脈へ注入するProgress-Guided Policy Pretraining、進捗を考慮した強化学習目的によるProgress-Policy Co-Finetuningである。
- R2R-CEおよびRxR-CEでの実験では、ナビゲーションの成功率と効率に関する最先端の結果が報告され、セマンティック進捗がナビゲーション前進のための表現の一貫性を高めることを示唆している。



