要旨: 構造化されていない環境を移動するには、ロボットの物理的能力に対して横断(移動)リスクを評価する必要があり、この課題は体(エンボディメント)の種類によって変わります。私たちは、マルチモーダルLLMを活用し、タスク固有の学習なしでゼロショットかつ体に応じたコストマップ生成を行う、コストを考慮した走行可能性(トラバース可能性)ナビゲーションの枠組みCATNAVを提案します。さらに、シーンの新規性を検出し、意味的に類似したフレームに対して過去のリスク評価を再利用する「ヴィジュオセマンティック・キャッシュ」機構を導入し、オンラインのVLMクエリを85.7%削減します。加えて、行動上の制約を踏まえて最も安全な経路を選択するために、視覚的推論によって提案を評価するVLMベースの軌道(トラジェクトリ)選択モジュールも導入します。私たちは、屋内および屋外の構造化されていない環境において、四足歩行ロボットでCATNAVを評価し、最先端の視覚—言語—行動ベースラインと比較します。5つのナビゲーション課題すべてにおいて、CATNAVは平均ゴール到達率を10ポイント上回り、行動上の制約違反は33%少なくなります。
CATNAV: 効率的なゼロショットロボットナビゲーションのためのキャッシュされた視覚言語トラバース可能性
arXiv cs.RO / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- CATNAVは、マルチモーダルLLMを用いて、タスク固有の学習なしで走行可能性コストマップを生成する、コスト重視かつ身体性(エンボディメント)を考慮したゼロショットロボットナビゲーションの枠組みです。
- 先行するリスク評価を、意味的に類似したシーンに対して再利用する「ヴィジュオセマンティック・キャッシュ」を導入し、オンラインの視覚言語モデル(VLM)への問い合わせを85.7%削減します。
- さらに、CATNAVにはVLMベースの軌道選択モジュールが含まれており、候補となる軌道を視覚的に推論して、行動上の制約を守りながら最も安全な選択肢を選びます。
- 屋内および屋外の非構造環境の両方で四足ロボットを用いた実験において、CATNAVは最先端の視覚言語アクション基準手法よりも優れ、平均の目標到達率を10ポイント上回ります。
- 5つのタスク全体で、CATNAVは行動制約違反を33%低減し、実世界に近いナビゲーション環境において安全性と信頼性が向上していることを示します。
広告




