CATNAV: 効率的なゼロショットロボットナビゲーションのためのキャッシュされた視覚言語トラバース可能性

arXiv cs.RO / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

CATNAVは、マルチモーダルLLMを用いて、タスク固有の学習なしで走行可能性コストマップを生成する、コスト重視かつ身体性（エンボディメント）を考慮したゼロショットロボットナビゲーションの枠組みです。
先行するリスク評価を、意味的に類似したシーンに対して再利用する「ヴィジュオセマンティック・キャッシュ」を導入し、オンラインの視覚言語モデル（VLM）への問い合わせを85.7%削減します。
さらに、CATNAVにはVLMベースの軌道選択モジュールが含まれており、候補となる軌道を視覚的に推論して、行動上の制約を守りながら最も安全な選択肢を選びます。
屋内および屋外の非構造環境の両方で四足ロボットを用いた実験において、CATNAVは最先端の視覚言語アクション基準手法よりも優れ、平均の目標到達率を10ポイント上回ります。
5つのタスク全体で、CATNAVは行動制約違反を33%低減し、実世界に近いナビゲーション環境において安全性と信頼性が向上していることを示します。

要旨: 構造化されていない環境を移動するには、ロボットの物理的能力に対して横断（移動）リスクを評価する必要があり、この課題は体（エンボディメント）の種類によって変わります。私たちは、マルチモーダルLLMを活用し、タスク固有の学習なしでゼロショットかつ体に応じたコストマップ生成を行う、コストを考慮した走行可能性（トラバース可能性）ナビゲーションの枠組みCATNAVを提案します。さらに、シーンの新規性を検出し、意味的に類似したフレームに対して過去のリスク評価を再利用する「ヴィジュオセマンティック・キャッシュ」機構を導入し、オンラインのVLMクエリを85.7%削減します。加えて、行動上の制約を踏まえて最も安全な経路を選択するために、視覚的推論によって提案を評価するVLMベースの軌道（トラジェクトリ）選択モジュールも導入します。私たちは、屋内および屋外の構造化されていない環境において、四足歩行ロボットでCATNAVを評価し、最先端の視覚—言語—行動ベースラインと比較します。5つのナビゲーション課題すべてにおいて、CATNAVは平均ゴール到達率を10ポイント上回り、行動上の制約違反は33%少なくなります。

Black Hat Asia

AI Business

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

日経XTECH

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

CATNAV: 効率的なゼロショットロボットナビゲーションのためのキャッシュされた視覚言語トラバース可能性

要点

関連記事

Black Hat Asia

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

Microsoftも実証「中空コア光ファイバー」、空気でガラスの限界突破へ

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供