時間変化する方策を用いるQ学習に対する最小仮定の解析

arXiv stat.ML / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、割引付きMDPにおいて時間変化する(オンポリシーの)学習方策を用いる場合に、有限時間内でのQ学習の収束を最小限の仮定のもとで解析する。必要なのは、いずれかの方策が状態上で既約なマルコフ連鎖を与えることだけである。
  • 期待される上極限ノルム誤差に対する「最後の反復」に関する収束レートを確立し、
  • \(\mathbb{E}[\|Q_k - Q^*\|_\infty] \le \xi\)
  • を達成するためのサンプル複雑度が \(\mathcal{O}(1/\xi^2)\) のオーダーになることを示す。
  • 得られたレートは、\(\xi\) に関する依存においてオフポリシーのQ学習と一致する一方、探索に関連するパラメータへの依存がより悪いことを示し、オンポリシーとオフポリシーのサンプリングに伴うトレードオフを反映している。
  • \(\mathbb{E}[\|Q^{\pi_k} - Q^*\|_\infty^2]\) に対して別個の有限時間境界も導出され、\(\pi_k\) が最適方策へと進むにつれて探索と活用の力学が明示される。
  • 急速に時間変化する方策によって誘発される、時間非一様なマルコフ雑音に起因する解析上の困難に対処するため、本研究ではポアソン方程式に基づく分解を開発し、マルチンゲール差分成分と残差成分に分ける。さらに、感度(sensitivity)の評価により残差項を制御できることを可能にしている。

Abstract

本研究では、割引マルコフ決定過程に対し、時間変化する学習方策(すなわちオンポリシー・サンプリング)を用いるQ-learningの最初の有限時間解析を提示する。最小限の仮定のもとで行い、必要とするのは、状態空間上で既約なマルコフ連鎖を誘導する方策の存在のみである。 ablaまでの収束率について、 ablaの下での最後の反復の収束率を確立する:すなわち ablaを示し、 abla abla を達成するためのサンプル複雑性が ablaのオーダー abla abla abla となることを意味する。これはオフポリシーQ-learningのレートと一致するが、探索に関連するパラメータへの依存はより悪い。また、有限時間における abla abla の収束率も導出する。ここで abla は反復 k における学習方策であり、オンポリシーQ-learningにおける探索と活用(エクスプロイト)のトレードオフを明確にする。オンポリシー学習では探索はオフポリシー手法よりも弱い一方で、学習方策が最適な方策へ収束することで活用の優位性を得られる。我々の理論は数値実験によって裏付けられる。技術的には、急速に時間変化する学習方策は時間非一様なマルコフ雑音を誘発し、最小限の探索のもとでは解析上の大きな困難を生む。これに対処するため、怠惰な遷移行列に基づくポアソン方程式にもとづく分解を開発し、そのマルコフ雑音をマルチンゲール差分項と残差項に分離する。残差は、ポアソン方程式の解に対するQ関数推定と学習方策の両方に関する感度分析によって制御する。これらの技法は、シングルタイムスケールのアクタークリティック手法や学習-in-ゲームアルゴリズムのような、時間変化する方策を持つ他のRLアルゴリズムにも拡張されうる。