要旨: 強化学習は、単一エージェント設定において経験的にも理論的にも成功を収めてきましたが、これらの結果を一般和(general-sum)のマルコフゲームにおけるマルチエージェント強化学習へ拡張することは依然として困難です。本論文では、制御理論的な観点から、二人プレイヤーの一般和マルコフゲームにおけるスタッケルベルグQ値反復の収束を研究します。スタッケルベルグ設定に合わせて緩和されたポリシー条件を導入し、学習ダイナミクスを切り替えシステムとしてモデル化します。上側および下側の比較システムを構成することで、Q関数に対する有限時間の誤差評価(エラーバウンド)を確立し、その収束特性を特徴づけます。本研究は、スタッケルベルグ学習に関する新しい制御理論的観点を提供します。さらに、著者らの知る限り、本論文はスタッケルベルグ相互作用のもとでの一般和マルコフゲームにおけるQ値反復に対して、有限時間の収束保証を初めて与えるものです。
一般和スタッケルベルグゲームに対するQ値反復の有限時間解析
arXiv cs.LG / 2026/4/7
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、2人プレイヤーの一般和マルコフゲームにおけるスタッケルベルグQ値反復の有限時間収束解析を提供し、単一エージェント設定を超えるマルチエージェントRL理論におけるギャップに取り組む。
- スタッケルベルグの相互作用構造に固有の緩和された方策条件を導入し、学習過程をスイッチングシステムとして定式化する。
- 上側および下側の比較システムを用いて、著者らは学習されたQ関数に対する有限時間の誤差境界を導出し、その収束挙動を記述する。
- 本研究は、制御理論の観点からスタッケルベルグ学習を捉え直し、スタッケルベルグ相互作用のもとでの一般和マルコフゲームにおけるQ値反復に対して有限時間の収束保証を与える最初のものであると主張する。
