Prism:強化学習における解釈可能な戦略マッピングによる政策(ポリシー)の再利用

arXiv cs.AI / 2026/4/6

📰 ニュース

要点

  • PRISMは、エンコーダ特徴をクラスタリングすることで因果的に検証された「概念」の離散集合を作り、その概念を、異なるアルゴリズムで学習したエージェント間の解釈可能な転移インターフェースとして用いる強化学習(RL)フレームワークである。
  • 著者らは因果介入を用いて、概念の割り当てを強制したり上書きしたりすると、選択された行動がテストケースの69.4%で変化することを示す(p=8.6×10^-86)。これは、概念が単にそれと相関するだけでなく、行動を駆動していることを裏付ける主張を支持する。
  • 概念の役割は偏りがあることが示される。最も頻繁に使われる概念はアブレーションしても勝率が小さくしか低下しない一方で、頻度の低い概念はパフォーマンスを大きく崩壊させることがある。これにより、戦略にとって重要だが使用頻度は低い概念が存在することが示唆される。
  • 最適な二部グラフ整合(ビパーティト・マッチング)によってエージェント間で概念を整列させることで、PRISMはゼロショットの戦略転移を可能にする(例:Go 7×7では成功した転移ペアが標準エンジンに対して約69.5%±3.2%および76.4%±3.4%の勝率に到達しており、ランダムや整合していないベースラインを大きく上回る)。
  • 本手法は、戦略的状態が自然に離散化される領域に依存しているように見える。Atari Breakoutでは同じパイプラインにより、ランダムエージェントと同程度のパフォーマンス付近のボトルネック・ポリシーが得られ、転移が機能するかどうかには構造的な制約があることを示している。

要旨: 強化学習エージェントの意思決定を、離散的で因果的に検証された概念に基づけ、その概念を、異なるアルゴリズムで訓練されたエージェント間のゼロショット転移のためのインターフェースとして用いる枠組みPRISM(Policy Reuse via Interpretable Strategy Mapping)を提示する。PRISMは各エージェントのエンコーダ特徴をK-meansによってK個の概念へクラスタリングする。因果介入により、これらの概念がエージェント行動を「単に相関しているだけでなく」直接駆動していること、つまり概念割り当てを上書きすると選択される行動が変化することが示される:介入の69.4%で行動が変更される(p = 8.6 \times 10^{-86}、2500介入)。概念の重要性と使用頻度は切り離される。最も使用される概念(C47、33.0%の頻度)をアブレーションしても勝率の低下は9.4%にとどまる一方で、C16(15.4%の頻度)をアブレーションすると勝率が100%から51.8%へ崩壊する。概念が因果的に戦略を符号化しているため、最適な二部マッチングで概念を整列(アライン)させることにより、戦略知識をゼロショットで転移できる。Go~7\times7で、独立に訓練した3つのエージェントを用いると、概念転移は2つの成功した転移ペア(10シード)において、標準エンジンに対しそれぞれ69.5%\pm3.2%および76.4%\pm3.4%の勝率を達成する。これはランダムエージェントで3.5%、整列なしで9.2%であることと比べて有意に高い。転移は、ソース方策が強いときに成功する;幾何学的整列の品質は何も予測しない(R^2 \approx 0)。この枠組みは、戦略的状態が自然に離散的となる領域に適用範囲が限定される。同一のパイプラインをAtari Breakoutに適用すると、ランダムエージェント性能に相当するボトルネック方策が得られ、Goの結果が領域の構造的性質を反映していることが確認される。