予測ベースの違反スコアリングによる強化学習における非マルコフ観測の診断

arXiv cs.LG / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

本論文は、相関のあるノイズ、遅延、部分観測性などの要因により、現実世界の強化学習（RL）観測がマルコフ性をしばしば破ることを扱い、標準的な指標ではそれらを他の劣化要因と切り分けて診断できない問題を取り上げる。
因果グラフの構築を必要とせず、予測ベースの違反スコアリング手法を提案する。具体的には、ランダムフォレストで非線形のマルコフ準拠ダイナミクスを除去し、その残差に対してリッジ回帰を用いて「履歴が残差の予測誤差を改善するか」を検定することで、スコアを[0,1]に収まる有界な値として算出する。
6つの一般的なRL環境と3つのアルゴリズム（PPO、A2C、SAC）にまたがる実験の結果、AR(1)ノイズ強度が高いほど非マルコフ性の違反スコアも高くなる傾向がしばしば見られ、特に高次元のロコモーション課題で顕著である。報告されたスピアマン相関は最大0.78。
学習時にノイズを加えた条件では、ほとんどの環境–アルゴリズムの組で報酬の低下が統計的に有意であり、さらに低次元設定においてはランダムフォレストがノイズの信号を吸収できてしまい、違反が増えてもスコアが下がるという「反転（inversion）」の失敗モードも記録されている。
有用性の実験では、このスコアが部分観測性を特定でき、アーキテクチャ選択の指針にもなり得ることが示される。非マルコフ観測に起因する性能低下を回復でき、再現可能なコードがGitHubで公開されている。

要旨: 強化学習アルゴリズムは観測がマルコフ性を満たすことを仮定するが、現実世界のセンサは、相関のあるノイズ、遅延、あるいは部分観測によって、この仮定をしばしば破る。標準的な性能指標は、マルコフ性の破綻と他の原因による非最適性を混同してしまい、そのような破れの検出のための診断ツールを実務者に提供できていない。本論文では、観測軌跡における非マルコフ的構造を定量化する、予測に基づくスコアリング手法を導入する。まずランダムフォレストが、非線形のマルコフ準拠ダイナミクスを除去する。次にリッジ回帰により、過去の観測が、現在の観測によってもたらされる情報の範囲を超えて、残差に対する予測誤差を低減できるかどうかを検定する。その結果得られるスコアは[0, 1]の範囲に収まり、因果グラフの構築を必要としない。評価は、6つの環境（CartPole、Pendulum、Acrobot、HalfCheetah、Hopper、Walker2d）、3つのアルゴリズム（PPO、A2C、SAC）、6つのノイズ強度レベルで制御したAR(1)ノイズ、条件ごとに10シードにまたがって行う。事後（post-hoc）の検出では、16の環境-アルゴリズムの組のうち7組、主に高次元の移動（ロコモーション）課題において、ノイズ強度と違反スコアの間に有意な正の単調性が観測される（Spearmanのρ最大0.78、反復測定解析で確認）。訓練時のノイズでは、16組のうち13組が統計的に有意な報酬の低下を示す。低次元環境では、ランダムフォレストがノイズ信号を吸収してしまい、真の違反が大きくなるほどスコアが低下するという、反転現象が記録されており、この失敗モードを詳細に分析する。本手法の実用性を示す実験では、提案スコアが部分観測を正しく特定し、アーキテクチャ選択を導くことで、非マルコフ的な観測によって失われた性能を完全に回復できることを示す。すべての結果を再現するためのソースコードはhttps://github.com/NAVEENMN/Markovianesで提供されている。