要約: テキスト目標インスタンスナビゲーション(TGIN)は、単一の自由形式の記述を解釈し、同一カテゴリの妨害物の中から正しいオブジェクトインスタンスに到達する行動を求められます。私たちは\textit{Context-Nav}を提案します。これは長く文脈的なキャプションを局所的なマッチング手掛かりからグローバルな探索事前情報へと昇華させ、3D空間推論により候補を検証します。まず、全文説明と整合する領域へ探索を誘導するため、フロンティアの評価を行う価値マップのために密なテキスト・画像アライメントを計算します。次に、候補を観測した際には視点認識型関係チェックを行います。エージェントは妥当な観察者ポーズをサンプリングし、局所座標系を整合させ、少なくとも一つの視点において空間関係を満たす場合のみターゲットを受理します。本手法はタスク固有のトレーニングやファインチューニングを必要とせず、InstanceNavおよびCoIN-Benchで最先端の性能を達成しています。アブレーション実験により、(i) 価値マップに全文キャプションを符号化することで無駄な移動が避けられ、(ii) 明示的な視点認識3D検証により意味的には妥当だが誤った停止を防げることが示されました。これにより、幾何学に基づいた空間推論が、複雑な3Dシーンでの詳細なインスタンスの識別において、重いポリシートレーニングや人的介入に代わるスケーラブルな代替手段であることが示唆されます。
Context-Nav: コンテキスト駆動型探索および視点認識型3D空間推論によるインスタンスナビゲーション
arXiv cs.CV / 2026/3/11
Ideas & Deep AnalysisModels & Research
要点
- Context-Navは、テキスト目標インスタンスナビゲーションにおいて、局所的なマッチング手掛かりにのみ依存するのではなく、長い文脈的なキャプションをグローバルな探索の事前情報として利用する新しいアプローチです。
- 本手法は密なテキストと画像のアライメントを計算し、説明全体と整合する領域への探索を導く価値マップを作成し、さらに候補オブジェクトの検証に視点認識型3D空間推論を行います。
- このパイプラインはタスク固有のトレーニングやファインチューニングを必要とせずに、InstanceNavおよびCoIN-Benchベンチマークで最先端の性能を達成しています。
- アブレーション研究では、価値マップ内で全文キャプションをエンコードすることで不要な移動が減少し、3D空間での視点認識検証により意味的には妥当でも空間的に不整合な誤検出が防止されることが確認されました。
- 結果は、幾何学に基づく空間推論が、複雑な3D環境での詳細な曖昧さ解消において、多大なポリシートレーニングや人間の介入に代わるスケーラブルかつ効果的な手法であることを示唆しています。