Walk With Me:人に寄り添う屋外支援のための長期ホライズンなソーシャルナビゲーション

arXiv cs.RO / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は「Walk with Me」という地図不要のフレームワークを提案し、高レベルの自然言語による意図を、屋外のオープン環境で安全かつ長期的で社会的に適合したロボット移動行動へと変換します。
  • GPSの文脈情報に加え、公的な地図APIから得る軽量な目的地候補(ポイント・オブ・インタレスト)を用いて、抽象的な指示を具体的な目的地へ“グラウンディング”し、粗いウェイポイント列を提案します。
  • 高レベルのビジョン・ランゲージ・モデルが指示を具体化して目標と粗い経路計画を行い、さらに観測に応じて低レベル方策だけで対応できるか、それとも高レベルでの安全推論が必要かを判断します。
  • 通常の移動区間は低レベルのビジョン・ランゲージ・アクション方策が担当し、群衆横断などの複雑で危険な状況では明示的な推論と停止・待機(stop-and-wait)が行われます。
  • この手法は、HD地図に依存する屋外システムと、学習ベースでも屋内・短期ホライズンに限られがちな従来の制約のギャップを埋めることを目指しています。

要旨: オープンワールドの屋外環境において人間を支援するには、ロボットが高水準の自然言語による意図を、安全で、長い視野(長ホライズン)にわたる、かつ社会的に適合したナビゲーション行動へと翻訳できる必要があります。既存の地図ベース手法はコストのかかる事前に構築されたHD(高精細)地図に依存する一方で、学習ベースの方策は主に屋内および短いホライズン設定に限られています。このギャップを埋めるために、本研究では高水準の人間の指示から長ホライズンの社会的ナビゲーションを行う、地図不要の枠組みであるWalk with Meを提案します。Walk with Meは、GPSコンテキストと、公的な地図APIから取得する軽量な候補目的地ポイントを活用して、意味的な目的地の位置づけ(semantic destination grounding)とウェイポイント提案を行います。高水準の視覚—言語モデル(High-Level Vision-Language Model)は、抽象的な指示を具体的な目的地へと位置づけし、粗いウェイポイント列を計画します。実行時には、観測(オブザベーション)に基づくルーティング機構が、低水準の視覚—言語—行動方策(Low-Level Vision-Language-Action policy)が現在の状況を扱えるかどうかを判断し、必要なら高水準のVLM(Vision-Language Model)からの明示的な安全性推論を用います。日常的な区間は低水準のVLA(Low-Level VLA)によって実行されますが、混雑した横断などの複雑な状況では、高水準の推論をトリガし、危険な場合は停止して待機(stop-and-wait)する行動に切り替えます。意味的な意図の位置づけ、地図不要の長ホライズン計画、安全性を考慮した推論、低水準の行動生成を組み合わせることで、Walk with Meは、人間中心の支援のための実用的な屋外ソーシャルナビゲーションを可能にします。