効率的で汎用性の高いビジョン・ランゲージナビゲーションのための構造化観測言語
arXiv cs.RO / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のビジョン・ランゲージナビゲーション(VLN)手法が、しばしば密な視覚と語の融合に依存しており、重い視覚事前学習を必要とする場合が多く、照明やテクスチャなど環境変化への汎化性能が十分でないと主張する。
- そこで、SOL-Navを提案する。SOL-Navは、エゴセントリックなRGB-D観測を、画像をN×Nのグリッドに分割し、各セルごとに意味・色・深度の記述子を抽出することで、コンパクトな構造化言語へと変換する。
- 次に、この構造化された観測テキストを自然言語の指示文と連結し、事前学習済みの言語モデルへ「純粋な言語入力」として投入することで、推論および表現能力の強みを活用する。
- VLNベンチマークであるR2RおよびRxRでの実験に加え、実世界での導入では、SOL-Navが汎化を改善しつつ、モデルサイズを削減し、大規模な学習データへの依存も低減すると報告される。
- 全体として本研究は、VLNを言語中心の課題として捉え直し、未知環境に対して身体性を持つナビゲーションをより効率的かつ頑健にすることを目指している。