AURA：現実世界の都市ナビゲーションのためのマルチモーダル共有オートノミー

arXiv cs.RO / 2026/4/3

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

本論文は、長期ホライズンの都市ナビゲーションのための新しいマルチモーダル共有オートノミー・フレームワークであるAURAを提案し、タスクを高レベルの人間の指示と低レベルのAI制御に分割する。
AURAは、視覚と空間文脈の整合性を、多様な視覚言語（vision-language）による人間の指示とより適切に合わせるための「Spatial-Aware Instruction Encoder」を用いる。
テレオペレーションデータと視覚言語の説明を組み合わせた大規模学習データセットであるMM-CoSを提案し、現実的な指示シナリオでの学習を可能にする。
シミュレーションと実環境の両方での実験により、ナビゲーションの安定性と指示追従性が向上し、さらにオンライン適応能力も示される。
同等のテイクオーバー条件のもとで、共有オートノミー手法は人間のテイクオーバー頻度を44%以上低減し、オペレータの負担や疲労を測定可能な形で軽減できることを示唆する。

Abstract

複雑な都市環境における長期的なナビゲーションは、連続的な人手運用に大きく依存しており、その結果として疲労、効率の低下、安全上の懸念が生じます。ビジョン-言語AIエージェントと人間のオペレータがモバイル・マシンの操縦に協働する共有自律は、これらの課題に対処する有望な解決策です。しかし、既存の共有自律手法はしばしば、人間とAIが同一の行動空間内で操作する必要があり、そのため認知的な負荷が高くなります。私たちは、都市ナビゲーションを高レベルの人間による指示と低レベルのAI制御に分解する新しいマルチモーダル枠組み、Assistive Urban Robot Autonomy（AURA）を提案します。AURAは、さまざまな人間の指示を視覚および空間的文脈に整合させるためのSpatial-Aware Instruction Encoderを組み込みます。訓練を容易にするために、遠隔操縦とビジョン-言語による記述から成る大規模データセットであるMM-CoSを構築します。シミュレーションおよび実環境での実験により、AURAが人間の指示を効果的に追従し、手作業の負担を軽減し、ナビゲーションの安定性を向上させるとともに、オンライン適応を可能にすることが示されます。さらに、同様のテイクオーバー条件のもとで、私たちの共有自律枠組みはテイクオーバーの頻度を44%以上低減します。デモ動画およびより詳細な情報はプロジェクトページで提供しています。