リャプノフで保証されたダイレクト・スイッチング理論によるQラーニング

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、定ステップサイズのQラーニングをダイレクトな確率的スイッチング系として書き換えることで、新しい解析枠組みを提示している。
  • ベルマン最大化誤差が確率的方策として厳密に表現できることを示し、その結果としてマルチンゲール差雑音を伴うスイッチ付き線形の条件付き平均再帰が得られる。
  • 収束の本質的なドリフト率は、スイッチング族のジョイントスペクトル半径(JSR)として特徴づけられ、従来の行和ベースの評価よりも厳しく(小さく)なる可能性がある。
  • JSRに誘導されたリャプノフ関数を用いて最終反復に対する有限時間の評価を導出し、さらに計算可能な二次証明(クワドラティック・サーティフィケート)形式も提示している。