要旨: 部分観測マルコフ決定過程(POMDP)は、不確実性と部分観測の下での意思決定のための基礎的な枠組みである。一般に最適方策は無限の記憶を必要とする場合があり、そのため実装が難しく、多くの場合、問題のほとんどが決定不能となってしまう。結果として、有限記憶方策が主に考えられる。しかし、それらを計算するためのアルゴリズムは典型的に非常に複雑であり、その結果得られる方策も同様に複雑である。これらの方策の説明可能性が求められることを受けて、本研究では、そのような方策の表現を、(i) 解釈可能な形式論において、かつ (ii) 通常はより小さいサイズの形で提供し、それによって説明可能性を高める。具体的には、メイリー機械のモデルと決定木を組み合わせる。後者は方策の単純で定常な部分を記述し、前者はそれらの間をどのように切り替えるかを記述する。有限状態コントローラ(FSC)形式の方策について、標準的な文献に基づく翻訳を設計し、さらに本手法が他の有限記憶方策の変種へどのように自然に一般化されるかを示す。さらに、近年用いられている「アトラクタ(吸引点)ベース」の方策に特有の性質を特定し、それによりさらに単純でより小さな表現を構成できることを示す。最後に、いくつかの事例研究により、高い説明可能性を具体的に示す。
POMDPにおける有限メモリ方策の説明可能表現:決定木によるアプローチ
arXiv cs.RO / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、POMDPの最適方策が一般に無限メモリを要し得るため実装が難しく、場合によっては決定不能になり得るという課題を扱い、有限メモリ方策の必要性を背景にしています。
- 著者らは、説明可能な有限メモリ方策の表現として、Mealy機械(各部品の切り替えを記述)と決定木(定常的で解釈可能な挙動を表現)を組み合わせる手法を提案します。
- 有限状態コントローラ(FSC)という標準的な方策形式から、決定木ベースの表現への変換方法を設計し、他の有限メモリ方策のバリアントにもスムーズに一般化できることを示しています。
- さらに、最近用いられている「アトラクタベース」方策の特定の性質を活用することで、表現をより簡潔かつ小型化できることを明らかにします。
- 提案手法の高い説明可能性は複数のケーススタディで示され、有限メモリPOMDPの挙動理解や解析に実用的な利点があることが示唆されます。



