FSUNav:高速・安全・汎用のゼロショット目標指向ナビゲーションのための大脳—小脳アーキテクチャ

arXiv cs.RO / 2026/4/6

📰 ニュース

要点

  • 本論文は、互換性、リアルタイム動作、安全性、オープンボキャブラリにおける汎化のボトルネックを克服することを目的とした、大脳—小脳のビジョン言語ナビゲーション・アーキテクチャであるFSUNavを提案する。

Abstract

現在の視覚言語ナビゲーション手法は、異種ロボットの互換性、リアルタイム性能、ナビゲーションの安全性に関して大きなボトルネックを抱えています。さらに、オープンボキャブラリの意味論的汎化や、マルチモーダルなタスク入力をサポートすることが難しいという課題もあります。これらの課題に対処するため、本論文ではFSUNavを提案します。FSUNavは、ファスト、安全、ユニバーサルなゼロショットの目的指向ナビゲーションのためのCerebrum-Cerebellumアーキテクチャであり、提案アーキテクチャに独創的にVLM(視覚言語モデル)を統合しています。高頻度のエンドツーエンドモジュールである小脳モジュールは、深層強化学習に基づいてユニバーサルなローカルプランナーを開発し、異種プラットフォーム(例:ヒューマノイド、四足歩行、車輪型ロボット)にわたる統一的なナビゲーションを実現します。これにより、ナビゲーション効率を向上させつつ、衝突リスクを大幅に低減します。大脳モジュールは3層の推論モデルを構築し、VLMを活用して、エンドツーエンドの検出・検証メカニズムを構築します。これにより、事前定義されたIDなしでオープンボキャブラリのゼロショット目的ナビゲーションが可能になり、シミュレーションおよび実環境の両方でタスク成功率が向上します。加えて、この枠組みはマルチモーダル入力(例:テキスト、目標の説明、画像)をサポートしており、汎化、リアルタイム性能、安全性、頑健性をさらに高めます。MP3D、HM3D、OVONベンチマークにおける実験結果は、FSUNavが、オブジェクト、インスタンス画像、タスクナビゲーションにおいて最先端の性能を達成し、既存手法を大幅に上回ることを示しています。多様なロボットプラットフォームでの実世界への導入も、その頑健性と実用性をさらに裏付けています。

FSUNav:高速・安全・汎用のゼロショット目標指向ナビゲーションのための大脳—小脳アーキテクチャ | AI Navigate