AI Navigate

制御可能な範囲を見つける: 強化学習における介入境界発見

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、強化学習において行動に起因する特徴と混乱要因であるディストラクタを区別するために、エージェントの因果的影響領域(Causal Sphere of Influence)を識別する問題を定義する。
  • 介入境界発見(IBD)を提案する。IBD はエージェントの行動に対してPearlのdo演算子を用い、二標本検定を適用して観測次元のバイナリマスクを生成します。学習済みモデルを必要とせず、任意のRLアルゴリズムの前処理ステップとして利用できます。
  • 最大100個のディストラクタを含む12の連続制御タスクの実験では、観測特徴選択がディストラクタを誤って選択し、真の因果特徴を除外してしまうことが示され、一方のIBDはディストラクタの水準を問わずオラクルの性能をほぼ追従し、SACおよびTD3へ転移します。
  • 全状態観測を用いたRLの性能は、ディストラクタが関連特徴より約3:1多くなると劣化することが明らかになり、RLパイプラインにおける因果特徴発見の重要性を強調しています。

概要: 観測統計だけでは、行動と相関する次元と、行動が原因となる次元を信頼性高く識別することはできない。混同された妨害因子がある状況で、関連する状態次元を選択することは因果的同定の問題である。これを、エージェントの因果影響の球(Causal Sphere of Influence)を発見する問題として形式化し、介入境界探索 IBD を提案する。IBD はパールの do 演算子をエージェント自身の行動に適用し、二標本検定を用いて観測次元に対する解釈可能な二値マスクを生成する。IBD は学習済みモデルを必要とせず、前処理ステップとして任意の下流 RL アルゴリズムと組み合わせて使用できる。最大100の妨害次元を含む12の連続制御設定にわたり、以下が分かった: (1) 観測特徴選択は、混同した妨害因子を積極的に選択しつつ、真の因果次元を除外することができる; (2) ベンチマークにおいて、妨害因子が関連特徴より概ね3:1の比で多くなると、全状態 RL は急激に性能が低下する; そして (3) IBD は、試験したすべての妨害レベルでオラクルの性能をほぼ追従し、SAC および TD3 の双方へ利得が転移する。