Soft $Q(bb)$: エリジビリティトレースを用いた、エントロピー正則化強化学習のためのマルチステップ・オフポリシー手法

arXiv cs.LG / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、先行研究の限界を超えて、エントロピー正則化強化学習のためのsoft Q-learningの形式的な$n$ステップ拡張を提案する。
  • それにより、オンポリシーのボルツマンサンプリングに頼らずに、完全なオフポリシーのマルチステップ設定を実現するための新しいSoft Tree Backup演算子を導入する。
  • 著者らは、これらの考えを統合して「Soft $Q(bb)$」を提示する。これは、任意の行動ポリシーの下で効率的なクレジット割当を行うことを目的とした、オンラインかつオフポリシーのエリジビリティトレース・フレームワークである。
  • 本研究では、将来の実証的な実験に対応できる、エントロピー正則化された価値関数を学習するためのモデルフリー手法に関する導出を示す。

Abstract

ソフトQ学習は、参照ポリシーからの乖離に対する罰則を付加して強化するリターンを最適化する、エントロピー正則化強化学習のための汎用的なモデルフリー手法として登場してきた。成功を収めているにもかかわらず、ソフトQ学習の多段(multi-step)拡張は比較的未探索であり、ボルツマン方策のもとでのオンポリシー行動サンプリングに限定されている。本短い研究ノートでは、まずソフトQ学習のための形式的なnステップ定式化を提示し、さらに新しい Soft Tree Backup 演算子を導入することで、この枠組みを完全なオフポリシーの場合へ拡張する。最後に、これらの発展をソフト Q(lambda) へと統合する。これは、任意の行動ポリシーのもとで効率的なクレジット割当を可能にする、エレガントなオンラインかつオフポリシーの適格度トレース(eligibility trace)フレームワークである。本導出は、将来の経験的(empirical)実験に利用可能な、エントロピー正則化された価値関数を学習するためのモデルフリー手法を提案する。