DyGeoVLN:動的ジオメトリ基盤モデルを視覚言語ナビゲーションへ注入する
arXiv cs.RO / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、事前手法が静的なシーンを前提としてしまい汎化できない、動的な現実環境に対応するための視覚言語ナビゲーションフレームワークDyGeoVLNを提案する。
- DyGeoVLNは、クロスブランチ特徴融合を通じて動的ジオメトリ基盤モデルをVLNへ「注入」し、明示的な3D空間表現と視覚セマンティックな推論を可能にする。
- 運動やダイナミクス下での長距離(長ホライゾン)における効率を高めるため、ポーズ不要の適応型解像度トークンプルーニング戦略を提案し、時空間的に冗長なトークンを除去して推論コストを低減する。
- 実験では複数のベンチマークで最先端の結果が得られ、現実環境における高い頑健性も示されたと報告されている。
