AnyImageNav: 精密なラストメートルの画像目標ナビゲーションのための任意視点ジオメトリ

arXiv cs.RO / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

AnyImageNavは、画像目標ナビゲーションにおける粗い停止指標に対処するため、後段の操作タスクに必要な精密な6自由度（6-DoF）のカメラ姿勢推定を可能にする。
本手法では、目標画像を幾何学的なクエリとして扱い、密なピクセルレベルの対応付けによってエージェントの観測に位置合わせすることで、正確な姿勢を回復する。
セマンティクスからジオメトリへと段階的に進むカスケードを用い、意味的な関連度の信号が探索を導き、目標に対して高い関連がある場合にのみ3Dマルチビューの基盤モデルを起動する。
基盤モデルは、その後、適応済みのベースラインに頼るのではなく、反復的な自己検証により位置合わせを自己認証し、正確な姿勢推定を保証する。
報告された結果では、Gibson（93.1%）およびHM3D（82.6%）において新たな最先端のナビゲーション成功率を達成し、適応済みベースラインに比べ姿勢誤差を5〜10倍改善した。

概要: 画像目標ナビゲーション（ImageNav）は、大まかな成功基準によって評価されます。すなわち、エージェントは目標から1m以内で停止しなければなりません。これは物体を見つけることには十分ですが、つかみ動作のような下流タスクでは、正確な位置決めが必要であるため不十分です。本研究では、より要求の厳しい設定へとImageNavを押し進める、学習不要（training-free）のシステム AnyImageNav を提案します。本手法の主要な着想は、目標画像を幾何学的クエリとして扱えることです。物体の任意の写真、廊下、あるいは部屋の角などを、密なピクセルレベル対応によってエージェントの観測へ登録でき、これにより正確な6自由度（6-DoF）のカメラ姿勢を復元可能になります。本手法はこれを、意味から幾何へと段階的に進む（semantic-to-geometric）カスケードによって実現します。意味的な関連性の信号が探索を導き、さらに近接ゲートとして機能し、現在の視点が目標画像に対して非常に関連性が高い場合に限って、3Dのマルチビュー基盤モデルを呼び出します。その後、モデルはループ内で自己認証により登録を確実化し、正確に復元された姿勢を得ます。本手法は、Gibson（93.1%）およびHM3D（82.6%）において最先端のナビゲーション成功率を達成し、さらに従来手法が提供していなかった姿勢復元を実現します。具体的には、Gibsonでは位置誤差0.27mおよび方位（heading）誤差3.41度、HM3Dでは0.21m / 1.23度であり、適応したベースラインに対して5〜10倍の改善です。

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

AnyImageNav: 精密なラストメートルの画像目標ナビゲーションのための任意視点ジオメトリ

要点

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険