DINO-VO: 状態推定を強化するためにどこに注目すべきかを学習する

arXiv cs.RO / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • DINO-VOは、ヒューリスティックな特徴抽出に依存していた従来のVOアプローチよりも、精度と頑健性を向上させることを目的とした、エンドツーエンドの単眼視覚オドメトリ(VO)システムです。

概要: 我々は、DINO Patch Visual Odometry(DINO-VO)を提案する。これは、強力なシーン汎化性能を備えたエンドツーエンドの単眼視覚オドメトリ(monocular visual odometry)システムである。現在の視覚オドメトリ(VO)システムはしばしば、ヒューリスティックな特徴抽出戦略に依存しており、特に大規模な屋外環境では、精度や頑健性を低下させうる。DINO-VOは、エンドツーエンドのパイプラインに微分可能な適応パッチセレクタを組み込むことで、これらの制約を解決し、抽出されるパッチの品質を向上させ、さまざまなデータセットにわたる汎化性能を高める。さらに本システムは、逆深度(inverse depth)事前知識を活用する微分可能なバンドル調整(BA)モジュールと組み合わせたマルチタスク特徴抽出モジュールを統合している。これにより、システムは外観(appearance)と幾何(geometric)情報を効果的に学習し、利用できるようになる。この統合は、特徴学習と状態推定の間のギャップを埋める。TartanAir、KITTI、Euroc、およびTUMの各データセットに対する大規模な実験により、DINO-VOが合成、屋内、屋外環境において強い汎化性能を示し、最先端のトラッキング精度を達成することが確認された。

DINO-VO: 状態推定を強化するためにどこに注目すべきかを学習する | AI Navigate