RANGER：視覚的文脈適応を通じた単眼ゼロショットセマンティックナビゲーションのフレームワーク

arXiv cs.RO / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単眼カメラのみを用いて（地面の真値となる深度や姿勢に依存せず）目標を位置推定し、ナビゲーションを可能にする、ゼロショットかつオープンボキャブラリのセマンティックナビゲーションフレームワーク「RANGER」を紹介する。
RANGERは、3D基盤モデルを活用し、短い走行ビデオから得られる環境文脈によって強力な視覚インコンテキスト学習（VICL）を追加することで、先行研究の限界に対処する。
アーキテクチャの変更やタスク固有の再学習を行わずに、主要キーフレームに基づく3D再構成、セマンティック点群生成、VLM駆動の探索価値推定、適応的な高レベルウェイポイント選択を統合することで、効率を向上させる。
HM3Dベンチマークおよび実環境での実験により、競争力のあるナビゲーション成功率と、探索効率の改善が報告される。加えて、VICLの適応性が優れており、事前の3Dマッピングは不要である。
全体として本研究は、センサー／地面の真値への依存を低減し、搭載観測から学習した文脈的な視覚事前知識を用いることで、複雑な環境における実運用を目標としている。