Soft $Q(bb)$: エリジビリティトレースを用いた、エントロピー正則化強化学習のためのマルチステップ・オフポリシー手法

arXiv cs.LG / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、先行研究の限界を超えて、エントロピー正則化強化学習のためのsoft Q-learningの形式的な$n$ステップ拡張を提案する。
それにより、オンポリシーのボルツマンサンプリングに頼らずに、完全なオフポリシーのマルチステップ設定を実現するための新しいSoft Tree Backup演算子を導入する。
著者らは、これらの考えを統合して「Soft $Q(bb)$」を提示する。これは、任意の行動ポリシーの下で効率的なクレジット割当を行うことを目的とした、オンラインかつオフポリシーのエリジビリティトレース・フレームワークである。
本研究では、将来の実証的な実験に対応できる、エントロピー正則化された価値関数を学習するためのモデルフリー手法に関する導出を示す。

Abstract

ソフトQ学習は、参照ポリシーからの乖離に対する罰則を付加して強化するリターンを最適化する、エントロピー正則化強化学習のための汎用的なモデルフリー手法として登場してきた。成功を収めているにもかかわらず、ソフトQ学習の多段（multi-step）拡張は比較的未探索であり、ボルツマン方策のもとでのオンポリシー行動サンプリングに限定されている。本短い研究ノートでは、まずソフトQ学習のための形式的な

n

ステップ定式化を提示し、さらに新しい Soft Tree Backup 演算子を導入することで、この枠組みを完全なオフポリシーの場合へ拡張する。最後に、これらの発展をソフト

Q(lambda)

へと統合する。これは、任意の行動ポリシーのもとで効率的なクレジット割当を可能にする、エレガントなオンラインかつオフポリシーの適格度トレース（eligibility trace）フレームワークである。本導出は、将来の経験的（empirical）実験に利用可能な、エントロピー正則化された価値関数を学習するためのモデルフリー手法を提案する。