Abstract
ソフトQ学習は、参照ポリシーからの乖離に対する罰則を付加して強化するリターンを最適化する、エントロピー正則化強化学習のための汎用的なモデルフリー手法として登場してきた。成功を収めているにもかかわらず、ソフトQ学習の多段(multi-step)拡張は比較的未探索であり、ボルツマン方策のもとでのオンポリシー行動サンプリングに限定されている。本短い研究ノートでは、まずソフトQ学習のための形式的なnステップ定式化を提示し、さらに新しい Soft Tree Backup 演算子を導入することで、この枠組みを完全なオフポリシーの場合へ拡張する。最後に、これらの発展をソフト Q(lambda) へと統合する。これは、任意の行動ポリシーのもとで効率的なクレジット割当を可能にする、エレガントなオンラインかつオフポリシーの適格度トレース(eligibility trace)フレームワークである。本導出は、将来の経験的(empirical)実験に利用可能な、エントロピー正則化された価値関数を学習するためのモデルフリー手法を提案する。



