エピソード問題に対する差分時間差分（Differential Temporal Difference）手法の拡張

arXiv cs.AI / 2026/5/7

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

差分時間差分（TD）手法は、無限ホライズンの強化学習に対して提案されており、リターンの有界性を保ちつつ価値関数の状態非依存のオフセットを除くために報酬のセンタリング（reward centering）を用いる。
本論文は、報酬センタリングがエピソード設定では最適方策を変えてしまう可能性があることを示し、その適用範囲を広げる動機付けを行う。
終了（termination）を含むエピソード問題に対して、方策の順序付けが保たれることを証明し、差分TDのエピソードへの拡張を実現する。
差分TDが線形TDの一形に等価であることを示すことで、線形TDで既に知られている理論的保証を継承する。
複数の基本アルゴリズムと環境にわたる実験で、報酬センタリングがエピソード問題においてサンプル効率を改善し得ることを実証する。

要旨: 差分時系列差分（TD）法は、無限ホライズン問題に対して提案されてきた、価値に基づく強化学習アルゴリズムである。これらは報酬中心化に依存しており、各報酬を平均報酬によって中心化する。これによりリターンは有界に保たれ、価値関数の状態非依存オフセットが取り除かれる。しかし、報酬中心化はエピソード型（episodic）問題では最適方策を変えてしまう可能性があり、その適用可能性が制限される。ストリーミング型深層強化学習における正規化の役割を強調する最近の研究に動機づけられ、我々はエピソード型問題における報酬中心化を研究し、差分TDの一般化を提案する。この一般化が、終了（termination）の存在下でも方策の順序付けを維持することを証明し、それによって差分TDをエピソード型問題へ拡張する。さらに、線形TDの一形式との同値性を示し、これらのアルゴリズムに対して示されてきた理論的保証を継承する。次に、いくつかのストリーミング強化学習アルゴリズムを、それぞれ差分版へ拡張する。基礎となる複数のアルゴリズムと環境にわたって、実験的に、報酬中心化がエピソード型問題においてサンプル効率を改善し得ることを検証する。