Abstract
現在の視覚言語ナビゲーション手法は、異種ロボットの互換性、リアルタイム性能、ナビゲーションの安全性に関して大きなボトルネックを抱えています。さらに、オープンボキャブラリの意味論的汎化や、マルチモーダルなタスク入力をサポートすることが難しいという課題もあります。これらの課題に対処するため、本論文ではFSUNavを提案します。FSUNavは、ファスト、安全、ユニバーサルなゼロショットの目的指向ナビゲーションのためのCerebrum-Cerebellumアーキテクチャであり、提案アーキテクチャに独創的にVLM(視覚言語モデル)を統合しています。高頻度のエンドツーエンドモジュールである小脳モジュールは、深層強化学習に基づいてユニバーサルなローカルプランナーを開発し、異種プラットフォーム(例:ヒューマノイド、四足歩行、車輪型ロボット)にわたる統一的なナビゲーションを実現します。これにより、ナビゲーション効率を向上させつつ、衝突リスクを大幅に低減します。大脳モジュールは3層の推論モデルを構築し、VLMを活用して、エンドツーエンドの検出・検証メカニズムを構築します。これにより、事前定義されたIDなしでオープンボキャブラリのゼロショット目的ナビゲーションが可能になり、シミュレーションおよび実環境の両方でタスク成功率が向上します。加えて、この枠組みはマルチモーダル入力(例:テキスト、目標の説明、画像)をサポートしており、汎化、リアルタイム性能、安全性、頑健性をさらに高めます。MP3D、HM3D、OVONベンチマークにおける実験結果は、FSUNavが、オブジェクト、インスタンス画像、タスクナビゲーションにおいて最先端の性能を達成し、既存手法を大幅に上回ることを示しています。多様なロボットプラットフォームでの実世界への導入も、その頑健性と実用性をさらに裏付けています。