観測摂動に対するPOMDP方策の頑健性分析
arXiv cs.AI / 2026/4/25
📰 ニュースModels & Research
要点
- この論文は、キャリブレーションのドリフトやセンサの劣化といった現実要因により、POMDPの観測モデルが名目モデルからずれた場合に方策の性能がどう劣化するかを調べます。
- 「方策観測頑健性問題」として、方策の価値(リターン)が指定した閾値を下回らないことを保証しつつ、観測モデルの許容最大偏差を求める枠組みを定式化します。
- 頑健性は2つの変種で分析されます。状態・行動に依存する“スティッキー”型と、履歴に依存しうる“非スティッキー”型です。
- 問題を双レベル最適化として捉え、内側最適化が偏差の大きさに対して単調であることを示すことで、外側ループでのルートファインディングにより効率的な解法を可能にします。
- 非スティッキー型では、有限状態コントローラ(FSC)で方策を表す場合、完全な履歴ではなくFSCのノードに依存する観測だけを考えれば十分であることを示します。さらに「ロバスト・インターバル探索」を提案し、健全性と収束を保証しつつ計算量(非スティッキーは多項式、スティッキーは最大で指数)と、数万状態規模へのスケーラビリティを実験で示し、ロボティクスやオペレーションズ・リサーチの事例で実用性も示しています。



