観測摂動に対するPOMDP方策の頑健性分析

arXiv cs.AI / 2026/4/25

📰 ニュースModels & Research

共有:

要点

この論文は、キャリブレーションのドリフトやセンサの劣化といった現実要因により、POMDPの観測モデルが名目モデルからずれた場合に方策の性能がどう劣化するかを調べます。
「方策観測頑健性問題」として、方策の価値（リターン）が指定した閾値を下回らないことを保証しつつ、観測モデルの許容最大偏差を求める枠組みを定式化します。
頑健性は2つの変種で分析されます。状態・行動に依存する“スティッキー”型と、履歴に依存しうる“非スティッキー”型です。
問題を双レベル最適化として捉え、内側最適化が偏差の大きさに対して単調であることを示すことで、外側ループでのルートファインディングにより効率的な解法を可能にします。
非スティッキー型では、有限状態コントローラ（FSC）で方策を表す場合、完全な履歴ではなくFSCのノードに依存する観測だけを考えれば十分であることを示します。さらに「ロバスト・インターバル探索」を提案し、健全性と収束を保証しつつ計算量（非スティッキーは多項式、スティッキーは最大で指数）と、数万状態規模へのスケーラビリティを実験で示し、ロボティクスやオペレーションズ・リサーチの事例で実用性も示しています。

Abstract

部分観測マルコフ決定過程（POMDP）のための方策は、しばしば名目上のシステムモデルを用いて設計されます。実際には、較正ドリフトやセンサの劣化といった要因により、このモデルは導入中に真のシステムから乖離する可能性があり、予期しない性能劣化につながります。本研究は、POMDPの観測モデルに対する逸脱に対する方策の頑健性を扱います。最大許容逸脱量を、方策の価値が所定の閾値を上回ることが保証される範囲として求めるための「方策観測頑健性問題（Policy Observation Robustness Problem）」を導入します。2つの変種を解析します。すなわち、逸脱が状態と行動に依存するスティッキー変種、および逸脱が履歴依存となり得る非スティッキー変種です。方策観測頑健性問題は、内側の最適化が観測逸脱の大きさに関して単調であるような二階層最適化問題として定式化できることを示します。これにより、外側の最適化では根探索アルゴリズムを用いた効率的な解法が可能になります。非スティッキー変種については、方策が有限状態コントローラ（FSC）で表現される場合、完全な履歴ではなく、FSC内のノードに依存する観測を考慮すれば十分であることを示します。スティッキー変種および非スティッキー変種の双方に対して、健全性と収束保証を備えたアルゴリズム「頑健区間探索（Robust Interval Search）」を提示します。本アルゴリズムは、非スティッキー変種では多項式時間計算量を持ち、スティッキー変種では高々指数時間計算量であることを示します。さらに、頑健区間探索の実装を、数万状態規模のPOMDP問題に適用したときのスケーラビリティを検証し、実証する実験結果を示します。加えて、ロボティクスおよびオペレーションズリサーチからのケーススタディを提示し、本問題とアルゴリズムの実用的有用性を示します。