マルチモーダルLLMによるオフロード地図作成のための視覚プロンプトベース推論

arXiv cs.RO / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、個別の地形・高さ・スリップ/傾斜モデルを置き換え、単一のマルチモーダルLLMベースの推論パイプラインで行うゼロショットのオフロード地図作成およびナビゲーション手法を提案する。
  • 環境をSAM2でセグメンテーションし、その上で、元画像に加えてセグメント化された数値ラベル付きマスクをビジョン言語モデルにプロンプト入力することで、どの領域が走行可能かをモデルが特定できるようにする。
  • ラベル付けされたセグメントに対するVLMの推論を活用することで、複数のタスク固有コンポーネントやデータセットを学習・微調整する必要を回避できる。
  • 計画・制御と統合することでシステムはエンドツーエンドのナビゲーションを実現し、高解像度セグメンテーションデータセットにおいて学習型の最先端モデルに対して競争力のある性能を示す。
  • 本アプローチは、フルスタックのIsaac Simオフロード環境で実証されており、走行可能領域の理解を必要とする自律スタックに対して実用的であることが示唆される。