デジタルツインにおける誤差伝播抑制のための最適な逐次意思決定

arXiv cs.LG / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、モジュール型デジタルツインにおける誤差伝播の抑制を、推定した「誤差レジーム」を意思決定の基盤とする逐次決定問題として定式化している。
HMMで推定したレジームを状態とし、システムの忠実度と保守コストのトレードオフを報酬に反映するMDPに加え、不完全なレジーム分類を前提としてPOMDP（ベイズ的な信念更新と、HMMの混同行列を観測モデルとして使用）へ拡張している。
両手法は動的計画法で解かれ、Gillespieの確率的シミュレーションで検証され、さらに明示的なモデル知識なしで方策を学習できるかを評価するためQ-learningとREINFORCEもベンチマークしている。
MDP方策が累積報酬と公称運転で過ごす時間の両方で最も高い性能を示し、POMDPは現実的な観測ノイズ下でMDPの約95%の性能を回復することが示され、主要パラメータを変えた頑健性と方策間の有意差（p<0.001）も確認されている。

要旨: ここでは、逐次的な意思決定プロセスとして、モジュール型デジタルツインにおける誤差伝播の抑制問題を探究する。潜在的な誤差レジームを、サロゲート物理の残差から推定するためにHidden Markov Model（HMM）を用いた関連研究を踏まえ、本研究では、推定されたレジームを状態とし、是正介入を行動とし、システムの忠実度と保守費用との費用対効果のトレードオフを考慮するスカラー報酬を導入したMarkov Decision Process（MDP）を構築する。基準となる遷移行列は、HMMによって学習されたパラメータから抽出する。さらに、この定式化を拡張し、ベイズフィルタリングによって更新される信念分布を維持することで、レジーム分類が不完全であるという性質を考慮したPartially Observable MDP（POMDP）を提案する。ここで、HMMの混同行列を観測モデルとして用いる。これらの2つの定式化は動的計画法によって解かれ、Gillespieの確率論的シミュレーションにより検証される。その上で、モデルを明示的に知らなくても有効な方策を学習できるかどうかを評価するために、2つのモデルフリー強化学習アルゴリズムであるQ-learningとREINFORCEをベンチマークする。異なる介入方策の系統的な比較により、MDP方策が累積報酬および通常運転に費やす時間の割合において最も高い性能を達成することが示される。また、POMDPは、現実的な観測ノイズの下でMDP性能をおよそ95%回復する。観測品質、修復確率、割引因子に関する感度分析により、これらの結論の頑健性が確認され、方策階層における主要なギャップは $p < 0.001$ で統計的に有意である。MDPとPOMDPの性能差は、分類精度の向上に投資するべきかどうかのための、原理に基づく基準を情報として提供する価値を定量化する。