要旨: 大きな二値状態空間を持つ制約付きMDPにおけるオフポリシー学習は、本質的な緊張関係に直面します。すなわち、遷移ダイナミクスの因果的同定には構造的仮定が必要である一方、サンプル効率の高い方策学習には状態空間の圧縮が必要です。我々は、制約の依存関係がライフサイクル順序付け仮定(LOA)の下で階層化されたDAGを形成するCMDPのための枠組み、PI-CMDPを提案します。提案手法は「Identify-Compress-Estimate」パイプラインです:(i) Identify: LOAにより、層間ペアに対する因果的な辺の重みのバックドア同定が可能であり、LOAが破られた場合には形式的な部分同定の上限も示します;(ii) Compress: マルコフな抽象化により、層優先の正則性および交換可能性の下で状態の階数を2^(WL)から(W+1)^Lへ圧縮します;(iii) Estimate: 物理ガイド付きの二重ロバスト推定器は、物理の事前知識が学習済みモデルよりも優れている場合に、偏りを保ったまま分散定数を低減します。我々は、工学シミュレーション・パイプラインにおける制約修復に対してPI-CMDPを具体化します。TPSベンチマーク(4,206エピソード)では、PI-CMDPは強力なベースラインに対して+5.4pp(70.8%)の改善となる一方、たった300エピソードの訓練のみで修復成功率76.2%を達成し、全データ領域では+2.8pp(83.4%対80.6%)まで縮小しますが、カスケード故障率は大幅に低減されます。これらの改善は、5つの独立な5シードすべてで整合的であり(対応のあるt検定 p < 0.02)、一貫性が確認されています。
工学シミュレーション・パイプラインにおける逐次制約修復のための物理インフォームド因果MDP
arXiv cs.AI / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LOA(Lifecycle Ordering Assumption)の下で因果同定と状態空間圧縮を統合することで、制約付きMDPに対するオフポリシー学習の課題(因果同定に必要な仮定とサンプル効率に必要な圧縮の両立)を解決するPI-CMDPを提案する。
- 提案手法はIdentify-Compress-Estimateのパイプラインで構成される:LOAによるバックドア同定で層間の因果エッジ重みを部分同定し、LOAが破られる場合の理論的な範囲を示し、層優先規則性と交換可能性の下でMarkov抽象化により状態数を削減し、さらに物理ガイダンス付きの二重頑健推定器で不偏性と分散定数の改善を狙う。
- この枠組みは、工学シミュレーション・パイプラインにおける逐次制約修復へ適用され、限られた学習データでも有効に学習できることが示される。
- TPSベンチマーク(4,206エピソード)では、PI-CMDPが学習300エピソードのみで修復成功率76.2%を達成し、最強ベースラインに対して+5.4ppの上回りを示し、全データ領域では改善幅は+2.8pp(83.4% vs 80.6%)に縮小しつつも維持される。
- さらに、連鎖的な失敗(カスケード失敗)の発生が大幅に低減され、5つの独立したシードでの一貫した成果(paired t-test p < 0.02)が確認される。




