概要: 相対的な時系列差分(TD)学習は、割引係数が1に近づくとTD手法の収束が遅くなる問題を、時系列差分更新からベースラインを差し引くことで緩和するために導入された。 この考え方は表形式の設定で研究されてきたが、関数近似を用いる場合の安定性保証は、いまだ十分に理解されていない。 本論文では、線形関数近似による相対的TD学習を解析する。 本研究では、アルゴリズムの安定性条件を確立し、ベースライン分布の選択が中心的な役割を果たすことを示す。 特に、ベースラインを状態-行動プロセスの経験分布として選ぶとき、任意の非負のベースライン重みおよび任意の割引係数に対してアルゴリズムは安定である。 また、得られるパラメータ推定値に対する感度分析を行い、漸近的バイアスと共分散の両方を特徴付ける。 漸近的共分散および漸近的バイアスは、割引係数が1に近づく場合でも一様に有界であることが示される。
相対的時間差学習(TD学習)の安定性および感度分析:拡張版
arXiv cs.LG / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、線形関数近似を用いる場合の相対的時間差(TD)学習の安定性を調べ、割引係数が1に近い設定においてどのように振る舞うかを理解することを目的とする。
- 安定性条件を導出し、安定性を保証する上で基準(ベースライン)分布が重要な要因であることを示す。
- ベースラインを経験的な状態-行動の分布(empirical state-action process distribution)に設定した場合、基準の重みが非負であれば、かつ任意の割引係数に対して、本手法が安定であることを示す。
- 著者らはパラメータ推定に対する感度分析を行い、漸近的バイアスと共分散を定量化する。
- 分析の結果、割引係数が1に近づく場合でも、漸近的バイアスおよび漸近的共分散の双方が一様に有界であることが示され、TD法に対してよくある懸念に対処する。



