AnyImageNav: 精密なラストメートルの画像目標ナビゲーションのための任意視点ジオメトリ

arXiv cs.RO / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • AnyImageNavは、画像目標ナビゲーションにおける粗い停止指標に対処するため、後段の操作タスクに必要な精密な6自由度(6-DoF)のカメラ姿勢推定を可能にする。
  • 本手法では、目標画像を幾何学的なクエリとして扱い、密なピクセルレベルの対応付けによってエージェントの観測に位置合わせすることで、正確な姿勢を回復する。
  • セマンティクスからジオメトリへと段階的に進むカスケードを用い、意味的な関連度の信号が探索を導き、目標に対して高い関連がある場合にのみ3Dマルチビューの基盤モデルを起動する。
  • 基盤モデルは、その後、適応済みのベースラインに頼るのではなく、反復的な自己検証により位置合わせを自己認証し、正確な姿勢推定を保証する。
  • 報告された結果では、Gibson(93.1%)およびHM3D(82.6%)において新たな最先端のナビゲーション成功率を達成し、適応済みベースラインに比べ姿勢誤差を5〜10倍改善した。

概要: 画像目標ナビゲーション(ImageNav)は、大まかな成功基準によって評価されます。すなわち、エージェントは目標から1m以内で停止しなければなりません。これは物体を見つけることには十分ですが、つかみ動作のような下流タスクでは、正確な位置決めが必要であるため不十分です。本研究では、より要求の厳しい設定へとImageNavを押し進める、学習不要(training-free)のシステム AnyImageNav を提案します。本手法の主要な着想は、目標画像を幾何学的クエリとして扱えることです。物体の任意の写真、廊下、あるいは部屋の角などを、密なピクセルレベル対応によってエージェントの観測へ登録でき、これにより正確な6自由度(6-DoF)のカメラ姿勢を復元可能になります。本手法はこれを、意味から幾何へと段階的に進む(semantic-to-geometric)カスケードによって実現します。意味的な関連性の信号が探索を導き、さらに近接ゲートとして機能し、現在の視点が目標画像に対して非常に関連性が高い場合に限って、3Dのマルチビュー基盤モデルを呼び出します。その後、モデルはループ内で自己認証により登録を確実化し、正確に復元された姿勢を得ます。本手法は、Gibson(93.1%)およびHM3D(82.6%)において最先端のナビゲーション成功率を達成し、さらに従来手法が提供していなかった姿勢復元を実現します。具体的には、Gibsonでは位置誤差0.27mおよび方位(heading)誤差3.41度、HM3Dでは0.21m / 1.23度であり、適応したベースラインに対して5〜10倍の改善です。