POMDPにおける近最適な有限ウィンドウ方策のモデルベース学習
arXiv cs.LG / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、有限履歴ウィンドウを「スーパー状態MDP」に変換するモデルベースのアプローチを用いて、表形式POMDPにおける有限ウィンドウ方策をどのように学習するかを研究する。
- スーパー状態MDPのモデルを推定できれば、通常のMDP計画が可能になることを主張するが、元のPOMDPからデータを収集するとサンプリングとターゲットの不一致が生じる点を強調している。
- 著者らは表形式POMDPに対するモデル推定手続きを提案し、単一の軌跡からスーパー状態MDPモデルを推定するためのサンプル複雑性解析を示す。
- この解析は、フィルタの安定性と、弱く従属する確率変数に対する濃度不等式の関係を利用し、厳密な保証を得る。
- 学習したスーパー状態モデルに対して価値反復を行うことで、元のPOMDPに対する有限ウィンドウ方策をおおむね最適に生成する。


