モバイルロボティクスにおけるObjectNavへのディープ強化学習とベイズ推論の統合

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、屋内モバイルロボティクスにおける物体ナビゲーション／探索問題について、部分的観測、知覚的不確実性、そして探索と効率のトレードオフに取り組むことで解決を目指す。
校正された検出からオンラインで更新される空間ベイズ信念（spatial belief map）によるベイズ推論と、その確率的な状態からナビゲーション行動を選択するディープ強化学習（DRL）方策を結合したハイブリッド手法を提案する。
ベイズ成分は不確実性を明示的に表現し、一方でRL成分は手作りのヒューリスティックに依存せず、適応的な行動選択を学習する。
現実的な屋内シミュレーション（Habitat 3.0）において2つの環境で実験を行い、ベースライン手法と比べて成功率の向上と探索労力の削減を確認する。
全体として、不確実性下における物体探索行動を、確率的な信念推定と学習済み方策を組み合わせることで、より効率的かつ信頼性高く実現できることが示唆される。

要旨: 自律型の物体探索は、屋内環境で動作するモバイルロボットにとって、部分的な観測、知覚の不確実性、そして探索とナビゲーション効率のトレードオフを行う必要があることから、困難です。従来の確率論的アプローチは不確実性を明示的に表現しますが、一般に手作りの行動選択ヒューリスティックに依存します。一方で深層強化学習は適応的なポリシーを可能にするものの、収束が遅くなりがちで、解釈可能性も限定的です。本論文では、ベイズ推論と深層強化学習を統合したハイブリッドな物体探索フレームワークを提案します。この手法は、対象となる位置に関する空間的な信念（belief）マップを保持し、較正された物体検出からのベイズ推論によりオンラインで更新します。そして、この確率的表現から直接ナビゲーション行動を選択するための強化学習ポリシーを学習します。提案手法は、Habitat 3.0 を用いた現実的な屋内シミュレーションで評価され、開発済みのベースライン戦略と比較されます。2つの屋内環境において、本手法は探索の努力量を減らしつつ成功率を向上させます。全体として、結果は、部分的な観測下でより効率的かつ信頼性の高い物体探索挙動を実現するために、ベイズ的な信念推定と学習された行動選択を組み合わせることの価値を支持しています。