状態空間の拡大とハイブリッド行動領域を用いたPOMDPベースの物体探索

arXiv cs.RO / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、3D環境におけるハイブリッド（連続＋離散）行動と、状態空間が拡大していく高次元POMDPとして、雑然とした屋内空間でのモバイルロボットによる物体探索を扱います。
新しいオンラインPOMDPソルバとしてGNPF-kCTを提案しており、知覚モジュール、状態（belief）ツリーの再利用を伴うMCTS、役に立たない原始行動の除外を行うニューラルプロセス、そして大規模な行動空間を扱うためのk-center（超球面）離散化を組み合わせています。
推定される直径を持つセル内での信念差と行動価値関数に基づく修正UCBにより、MCTSの探索拡張を効率的に導きます。
情報や報酬が限られる状況では、グリッドワールドモデルを用いた「推定ターゲット物体」戦略により、探索効率を高めます。
Gazebo上の実験（FetchとStretch）およびオフィス環境での実機テストで、計算資源と知覚システムが同程度の条件下において、POMDPベースのベースラインや非POMDPの最先端ソルバ（LLMベースの手法を含む）よりも、ターゲットの特定がより速く、より確実であることが示されています。

Abstract

本棚、机、ベッドなど多様な家具が存在する複雑な屋内環境において、移動ロボットが対象物を効率的に見つけ出すことは重要な課題です。この難しさは、ローカライゼーション（自己位置推定）の誤差、視野の制約、そして視覚的な遮蔽といった要因に起因します。本研究では、この物体探索タスクを、状態空間が増大していく高次元の部分観測マルコフ決定過程（POMDP）として定式化し、3D環境におけるハイブリッド（連続・離散）アクション空間を扱うことで解決します。精密に設計された知覚モジュールに基づき、この問題に取り組むための新しいオンラインPOMDPソルバとして、成長するニューラルプロセス・フィルタ付きk-centerクラスタリングツリー（GNPF-kCT）を提案します。最適なアクションは、増大する状態空間に対する信念ツリー再利用、無用な原始アクションを除外するニューラルプロセスネットワーク、そして高次元アクション空間を効率的に洗練するためのk-centerクラスタリングのハイパースフィア離散化を用いたモンテカルロ木探索（MCTS）によって選択されます。修正した上側信頼度境界（UCB）は、推定された直径をもつセル内における信念の差分とアクション価値関数に基づいて、MCTSの拡張を導きます。理論解析により、本手法の収束性と性能の見込みが裏付けられます。情報や報酬が限られた状況に対処するために、格子世界モデルを用いて「推定されるターゲット物体」を導入し、探索効率を高めるための重要な戦略とします。FetchおよびStretchロボットを用いたGazeboによる大規模シミュレーションでは、同一の計算制約と知覚システムのもとで、POMDPベースのベースラインおよび最先端（SOTA）の非POMDPベースソルバ、特に大規模言語モデル（LLM）ベースの手法に比べて、対象物のローカリゼーションがより速く、かつより確実であることを示します。オフィス環境における実環境テストにより、本手法の実用性が確認されます。プロジェクトページ: https://sites.google.com/view/gnpfkct。