広告

POMDPにおける近最適な有限ウィンドウ方策のモデルベース学習

arXiv cs.LG / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、有限履歴ウィンドウを「スーパー状態MDP」に変換するモデルベースのアプローチを用いて、表形式POMDPにおける有限ウィンドウ方策をどのように学習するかを研究する。
  • スーパー状態MDPのモデルを推定できれば、通常のMDP計画が可能になることを主張するが、元のPOMDPからデータを収集するとサンプリングとターゲットの不一致が生じる点を強調している。
  • 著者らは表形式POMDPに対するモデル推定手続きを提案し、単一の軌跡からスーパー状態MDPモデルを推定するためのサンプル複雑性解析を示す。
  • この解析は、フィルタの安定性と、弱く従属する確率変数に対する濃度不等式の関係を利用し、厳密な保証を得る。
  • 学習したスーパー状態モデルに対して価値反復を行うことで、元のPOMDPに対する有限ウィンドウ方策をおおむね最適に生成する。

広告