DyGeoVLN:動的ジオメトリ基盤モデルを視覚言語ナビゲーションへ注入する

arXiv cs.RO / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、事前手法が静的なシーンを前提としてしまい汎化できない、動的な現実環境に対応するための視覚言語ナビゲーションフレームワークDyGeoVLNを提案する。
  • DyGeoVLNは、クロスブランチ特徴融合を通じて動的ジオメトリ基盤モデルをVLNへ「注入」し、明示的な3D空間表現と視覚セマンティックな推論を可能にする。
  • 運動やダイナミクス下での長距離(長ホライゾン)における効率を高めるため、ポーズ不要の適応型解像度トークンプルーニング戦略を提案し、時空間的に冗長なトークンを除去して推論コストを低減する。
  • 実験では複数のベンチマークで最先端の結果が得られ、現実環境における高い頑健性も示されたと報告されている。

Abstract

視覚言語ナビゲーション(VLN)では、エージェントが視覚観測と、言語による指示を理解して、未見の環境内を移動できることが求められます。既存の多くの手法は静的なシーンの前提に依存しているため、動的で現実世界のシナリオへの汎化が難しいという課題があります。この課題に対処するため、我々はDyGeoVLNという動的ジオメトリに着目したVLNフレームワークを提案します。我々の手法は、交差ブランチの特徴融合を通じて、動的ジオメトリ基盤モデルをVLNフレームワークに組み込み、明示的な3D空間表現と視覚-意味推論を可能にします。長い時間範囲にわたる動的ナビゲーションにおいて、過去のトークン情報を効率的に圧縮するため、さらに新規の「ポーズフリーかつ適応的解像度のトークンプルーニング」戦略を導入します。この戦略により、推論コストを削減するために、時空間的に冗長なトークンを除去できます。大規模な実験の結果、我々の手法は複数のベンチマークで最先端の性能を達成し、現実世界の環境において強い頑健性を示すことが確認されました。