要旨: オープン語彙モバイル操作(OVMM)では、ロボットが言語指示に従い、移動し、そして操作しながら、動的な環境変化に応じて自らの世界表現を更新する必要があります。しかし、従来の多くの手法では、世界表現の更新はナビゲーションの目標、ウェイポイント、または行動ステップの終了といった離散的な更新点でのみ行われることがほとんどであり、更新と更新の間ではロボットが目を見通せない状態になります。その結果、連鎖的な失敗が生じます。見落とされた物体、エラー検出の遅れ、そして再計画の遅延です。この制約に対処するために、私たちはBINDER(Bridging INstant and DEliberative Reasoning:即時推論と熟慮推論の橋渡し)を提案します。これは、戦略的計画と連続的な環境モニタリングを切り離すデュアルプロセスの枠組みです。具体的には、BINDERは、タスク計画のためのマルチモーダルLLMであるDeliberative Response Module(DRM)と、連続モニタリングのためのVideoLLMであるInstant Response Module(IRM)を統合します。両モジュールは補完的な役割を担います。DRMは、構造化された3Dシーン更新による戦略的計画を行い、IRMが注目すべき内容を導きます。一方、IRMは映像ストリームを解析して記憶を更新し、進行中の行動を修正し、必要に応じて再計画を引き起こします。この双方向の協調により、認識を維持することと高コストな更新を避けることとのトレードオフに対処し、動的条件下での頑健な適応を可能にします。動的な物体配置を含む3つの実世界環境で評価した結果、BINDERはSoTAのベースラインと比べて成功率および効率が大幅に高く、実世界への展開における有効性が示されました。
BINDER:オープンボキャブラリのコマンドで即時に適応するモバイルマニピュレーション
arXiv cs.RO / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、オープンボキャブラリのモバイルマニピュレーション・システムは動的な環境では失敗しやすいと主張している。理由は、ロボットが世界表現を離散的なタイミングでのみ更新するため、その更新の間はロボットが盲目的になってしまうからである。
- 提案手法 BINDER は、戦略計画と連続モニタリングを分離する二重プロセスの枠組みである。戦略計画はマルチモーダルLLM「DRM」で行い、連続モニタリングは VideoLLM「IRM」で行う。
- DRM は、構造化された3Dシーン更新を生成し、IRM が注目すべき対象を指示する。一方で IRM は、動画を連続的に解析してメモリを更新し、行動を修正し、必要に応じて再計画を引き起こす。
- BINDER は DRM と IRM を双方向に協調させることで、状況認識を維持しつつ、過度に頻繁な更新によるコスト増を避けることを目指す。
- 動的に配置される物体がある 3 つの実世界環境での実験により、最先端ベースラインに比べて成功率と効率が大幅に高いことが示される。