FSUNav：高速・安全・汎用のゼロショット目標指向ナビゲーションのための大脳—小脳アーキテクチャ

Abstract

現在の視覚言語ナビゲーション手法は、異種ロボットの互換性、リアルタイム性能、ナビゲーションの安全性に関して大きなボトルネックを抱えています。さらに、オープンボキャブラリの意味論的汎化や、マルチモーダルなタスク入力をサポートすることが難しいという課題もあります。これらの課題に対処するため、本論文ではFSUNavを提案します。FSUNavは、ファスト、安全、ユニバーサルなゼロショットの目的指向ナビゲーションのためのCerebrum-Cerebellumアーキテクチャであり、提案アーキテクチャに独創的にVLM（視覚言語モデル）を統合しています。高頻度のエンドツーエンドモジュールである小脳モジュールは、深層強化学習に基づいてユニバーサルなローカルプランナーを開発し、異種プラットフォーム（例：ヒューマノイド、四足歩行、車輪型ロボット）にわたる統一的なナビゲーションを実現します。これにより、ナビゲーション効率を向上させつつ、衝突リスクを大幅に低減します。大脳モジュールは3層の推論モデルを構築し、VLMを活用して、エンドツーエンドの検出・検証メカニズムを構築します。これにより、事前定義されたIDなしでオープンボキャブラリのゼロショット目的ナビゲーションが可能になり、シミュレーションおよび実環境の両方でタスク成功率が向上します。加えて、この枠組みはマルチモーダル入力（例：テキスト、目標の説明、画像）をサポートしており、汎化、リアルタイム性能、安全性、頑健性をさらに高めます。MP3D、HM3D、OVONベンチマークにおける実験結果は、FSUNavが、オブジェクト、インスタンス画像、タスクナビゲーションにおいて最先端の性能を達成し、既存手法を大幅に上回ることを示しています。多様なロボットプラットフォームでの実世界への導入も、その頑健性と実用性をさらに裏付けています。

FSUNav：高速・安全・汎用のゼロショット目標指向ナビゲーションのための大脳—小脳アーキテクチャ

要点

Abstract

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer