広告

効率的で汎用性の高いビジョン・ランゲージナビゲーションのための構造化観測言語

arXiv cs.RO / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のビジョン・ランゲージナビゲーション(VLN)手法が、しばしば密な視覚と語の融合に依存しており、重い視覚事前学習を必要とする場合が多く、照明やテクスチャなど環境変化への汎化性能が十分でないと主張する。
  • そこで、SOL-Navを提案する。SOL-Navは、エゴセントリックなRGB-D観測を、画像をN×Nのグリッドに分割し、各セルごとに意味・色・深度の記述子を抽出することで、コンパクトな構造化言語へと変換する。
  • 次に、この構造化された観測テキストを自然言語の指示文と連結し、事前学習済みの言語モデルへ「純粋な言語入力」として投入することで、推論および表現能力の強みを活用する。
  • VLNベンチマークであるR2RおよびRxRでの実験に加え、実世界での導入では、SOL-Navが汎化を改善しつつ、モデルサイズを削減し、大規模な学習データへの依存も低減すると報告される。
  • 全体として本研究は、VLNを言語中心の課題として捉え直し、未知環境に対して身体性を持つナビゲーションをより効率的かつ頑健にすることを目指している。

Abstract

視覚言語ナビゲーション(VLN)では、身体化されたエージェントが自然言語の指示に従って複雑な環境を移動する必要があり、これは通常、視覚と言語モダリティの密な融合を要求します。既存のVLN手法はしばしば、生画像を視覚トークンや暗黙的特徴に変換することで対応しますが、そのためには大規模な視覚事前学習が必要であり、さらに環境の変化(例:照明、質感)に対する汎化性能が低いという問題があります。これらの課題に対処するために、我々はSOL-Nav(Structured Observation Language for Navigation)を提案します。これは、前方視(自己中心)の視覚観測を、効率的で汎化可能なナビゲーションのためのコンパクトな構造化言語記述へと変換する新しい枠組みです。具体的には、RGB-D画像をN*Nグリッドに分割し、各グリッドセルから代表的な意味・色・深度情報を抽出して構造化テキストを形成します。そして、この構造化テキストを言語指示と連結し、それを事前学習済み言語モデル(PLM)への純粋な言語入力として与えます。標準的なVLNベンチマーク(R2R、RxR)および実環境での展開に関する実験結果は、SOL-Navがモデルサイズと学習データ依存を大幅に削減し、PLMの推論および表現能力を十分に活用でき、さらに未見の環境に対して強力な汎化を達成することを示しています。

広告