VLM統合型屋内移動ロボットのためのセマンティック自律フレームワーク：ハイブリッド決定論的推論とクロスロボット適応メモリ

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、屋内移動ロボットが自然言語の「意図」に基づく指示を解釈できない課題に対し、ROS 2 Navigation 2のような既存ナビゲーション基盤にVLM（視覚言語モデル）推論を統合する枠組みを提案している。
「Semantic Autonomy Stack」として6層の参照フレームワークを提示し、ハイブリッド（決定論的）推論とVLM推論を組み合わせ、7ステップのパラメトリック・レゾルバで大部分の指示を高速に処理することでレイテンシを抑える。
意味的に曖昧な指示のみがVLMによる推論へエスカレーションされ、消費者向け環境で課題となる推論遅延（2〜9秒/意思決定）を実運用レベルで低減する。
セッションごとの忘却（amnesia）問題に対して、セマンティックメモリを導入し、グローバル環境知識・運用者の嗜好・ロボット能力という明示的なスコープ分類により、ロボット間・セッション間で学習内容を転移できるようにしている。
Raspberry Pi 5（オンボードGPUなし）上で2台の差動駆動ロボットを用いた検証では、複数セッションにわたりセマンティック転移精度と解像精度がそれぞれ100%となり、同時マルチロボット運用の実現可能性も示されている。

要旨: 自律的な屋内移動ロボットは、ROS 2 Navigation 2 のような確立された枠組みにより、計測座標へ確実にナビゲートできますが、位置ではなく意図を表す自然言語指示を解釈する能力が欠けています。ビジョン＝言語モデルはこのギャップを埋めるために必要な意味論的推論を提供しますが、推論遅延（コンシューマ向けハードウェアで1決定あたり2〜9秒）とセッションごとの忘却が、実運用上の導入を制限します。本論文は、意味論的自律型屋内ナビゲーションのための6層からなる参照枠組み「Semantic Autonomy Stack」を提示し、市販のエッジ・ハードウェア上の実ロボットで、ハイブリッドな決定論的-VLM推論とロボット間適応メモリを備えた完全な実装を検証します。7ステップのパラメトリック・リゾルバは、言語モデル、カメラ、GPU を呼び出すことなく、88%の指示を0.1ミリ秒未満で処理します。本当に曖昧な指示のみがVLM推論へエスカレーションされます。明示的なスコープ分類（グローバル環境知識、オペレータごとの嗜好、ロボットごとの能力）を持つ5カテゴリの意味論的メモリ枠組みにより、セッション間学習とロボット間の知識転移が可能になります。あるロボットでVLMとの相互作用を通じて学習した嗜好は、決定論的な解決へ昇格され、共通のコンパイル済みダイジェストを介して2台目のロボットへ転送され、測定された遅延削減は103,000分の1に達します。2台の自作差動駆動ロボットに対する実験的検証では、82のシナリオ水準の意思決定と3つのセッションにおいて、意味転移精度100%（33/33、95% CI [0.894, 1.000]）、意味解決精度100%、および同時のマルチロボット運用の実現可能性が示されました。これらは、搭載GPUなしでRaspberry Pi 5プラットフォーム上ですべて行われ、訓練データは一切不要です。