要旨: 視覚と言語ナビゲーション(VLN)は、身体を持つエージェントが自然言語の指示に従い、未知の3D環境内の目標地点へ移動できるようにすることを目指します。本研究では、VLMをVLNに適応させるには、このような認識(awareness)を獲得するための補完的な2つの能力、すなわち後向きの行動推論(why)と前向きの遷移予測~(how)を与える必要があると主張します。この洞察に基づき、VLM内に動的な空間認識を活性化する、シンプルかつ効果的な学習フレームワークSpaActを提案します。具体的には、SpaActは2つの空間活性化タスクを導入します。Action Retrospection(行動の追想)は、視覚的な遷移から実行された行動系列を推論するようモデルに求めるもので、Future Frame Selection(将来フレーム選択)は、履歴と行動に条件付けられた視覚的遷移の予測を強制するものです。これら2つの目的は、後向きの行動推論と前向きの遷移予測の両方に対して軽量な教師信号を提供し、VLMに適した形で動的な空間認識を構築することをモデルに促します。適応をさらに安定化するために、我々は、学習サンプルを簡単なものから難しいものへと整理する、TriPAという三要因の漸進的適応カリキュラム学習手法を設計します。これにより、モデルは基本的な移動(locomotion)から長期(長いホライズン)での推論へと段階的にナビゲーション能力を獲得できます。標準的なVLN-CEベンチマークでの実験により、SpaActは一貫してVLMベースのナビゲーションを改善し、最先端(state-of-the-art)の性能を達成することが示されます。将来の研究を支援するため、コードとモデルを公開します。
SpaAct:カリキュラム適応による空間的活性化遷移学習と視覚言語ナビゲーション
arXiv cs.CV / 2026/5/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、未見の3D環境で自然言語の指示に従って移動する視覚と言語ナビゲーション(VLN)にVLMを適応させるには、「なぜ」を扱う後ろ向きの行動推論(backward action reasoning)と、「どうやって」を扱う前向きの遷移予測(forward transition prediction)の2つの能力が必要だと主張しています。
- その洞察に基づき、SpaActというトレーニング枠組みを提案し、空間的活性化のための2つのタスクとして、視覚遷移から実行された行動系列を推定するAction Retrospectionと、履歴と行動に条件付けて将来の視覚遷移を予測するFuture Frame Selectionを導入します。
- SpaActは、推論と予測の両方の目的に対する軽量な教師信号を与えることで、VLMがダイナミックな空間的認識を形成しやすくすることを狙っています。
- 学習の安定化のために、TriPAという3要因の漸進的適応カリキュラム学習法を設計し、基本的な移動(ロコモーション)から長期の推論へと段階的にスキルを獲得できるようにしています。
- 標準的なVLN-CEベンチマークでの実験では一貫した改善と最先端(SOTA)性能が示され、今後の研究を支えるためにコードとモデルを公開する予定です。




