POMDPにおける近最適な有限ウィンドウ方策のモデルベース学習

arXiv cs.LG / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、有限履歴ウィンドウを「スーパー状態MDP」に変換するモデルベースのアプローチを用いて、表形式POMDPにおける有限ウィンドウ方策をどのように学習するかを研究する。
スーパー状態MDPのモデルを推定できれば、通常のMDP計画が可能になることを主張するが、元のPOMDPからデータを収集するとサンプリングとターゲットの不一致が生じる点を強調している。
著者らは表形式POMDPに対するモデル推定手続きを提案し、単一の軌跡からスーパー状態MDPモデルを推定するためのサンプル複雑性解析を示す。
この解析は、フィルタの安定性と、弱く従属する確率変数に対する濃度不等式の関係を利用し、厳密な保証を得る。
学習したスーパー状態モデルに対して価値反復を行うことで、元のPOMDPに対する有限ウィンドウ方策をおおむね最適に生成する。

Reddit r/LocalLLaMA

Dev.to

Dev.to

Reddit r/LocalLLaMA

Dev.to