概要: 既存のゼロショット Object Goal Navigation(ObjectNav)手法は、多くの場合、大規模言語モデルまたは視理解言語モデルから得られる常識知識を活用してナビゲーションを導きます。しかし、そのような知識は身体化された3D経験ではなく、インターネット規模のテキストに由来しています。また、ナビゲーション中に収集されたエピソード観測は通常破棄されるため、生涯にわたる経験の蓄積ができません。そこで本研究では、幾何学的・意味的経験を検索して大規模モデルの推論を強化する、検索強化生成フレームワーク Trajectory RAG(TrajRAG)を提案します。TrajRAGは、過去のナビゲーションエピソードからのエピソード観測を段階的に蓄積します。観測を構造化するために、空間レイアウトと意味コンテキストをコンパクトに符号化し、生のエピソード観測に含まれる冗長性を効果的に取り除く、位相極(topo-polar)軌跡表現を提案します。さらに階層的なチャンク化構造により、類似する topo-polar 軌跡を統一的な要約へと整理し、粗いものから細かいものへ段階的に検索できるようにします。ナビゲーション中には、候補となるフロンティアが複数の軌跡仮説を生成し、それらが TrajRAG に対して類似する過去の軌跡を問い合わせます。これにより、ウェイポイント選択に関する大規模モデルの推論が導かれます。新しい経験は継続的に TrajRAG に統合され、生涯にわたるナビゲーション経験の蓄積が可能になります。MP3D、HM3D-v1、HM3D-v2 に関する実験では、TrajRAG が関連する幾何学的・意味的経験を効果的に検索し、ゼロショット ObjectNav の性能を向上させることが示されました。
TrajRAG:ゼロショット物体ナビゲーションのための幾何学的・意味論的経験の探索
arXiv cs.CV / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- TrajRAGは、ゼロショット物体目標ナビゲーション向けに、インターネット由来の常識だけに頼らず、身体化された幾何学的・意味論的経験を活用するリトリーバル強化生成フレームワークである。
- 同手法は、過去のナビゲーションエピソードを逐次的に蓄積し、「ライフロング」な知識ベースを形成するために、観測をコンパクトなトポロジカル・ポーラ軌道表現へ変換して整理する。
- 階層的なチャンク化により、類似した軌道を統合要約としてまとめ、粗い段階から細かい段階へと対応する経験を探索できる。
- ナビゲーション中はフロンティア候補から複数の軌道仮説を生成し、それらがTrajRAGへ問い合わせて類似の過去軌道を参照することで、大規模モデルの推論に基づくウェイポイント選択を改善する。
- MP3D、HM3D-v1、HM3D-v2での実験では、幾何学的・意味論的経験の探索がゼロショットObjectNavの性能向上につながることが示されている。



