Abstract
効率的な探索は強化学習における中心的な問題であり、しばしば状態・行動の占有測度のエントロピーを最大化することとして定式化される。制約のない最大エントロピー探索は比較的よく理解されている一方で、現実世界での探索は安全性、資源、あるいは模倣といった要件によって制約されることが多い。この制約付きの設定は特に難しい。なぜなら、エントロピー最大化には加法的な構造が欠けており、ベルマン方程式に基づく手法が適用できないからである。さらに、スケーラブルな手法には方策のパラメータ化が必要となり、その結果として目的関数と制約の双方に非凸性が生じる。私たちの知る限り、この設定において一般の方策パラメータ化のもとで、モデルフリーの方策勾配アプローチとして先行しているのは Ying ら(2025)によるものだけである。しかし残念ながら、彼らの保証は弱い regret(後悔)とエルゴード平均に限られており、最終的な出力が、最適に近くかつ実現可能性(実行可能性)がほぼ満たされる単一のデプロイ可能な方策であることを意味しない。本研究では、この問題に対して別のアプローチを取り、Policy Gradient Penalty(PGP)法を提案する。PGP は単一ループの方策空間手法であり、二次ペナルティ正則化を通じて、一般の凸な占有測度制約を強制する。PGP は、罰則付き目的の勾配推定値を与える疑似報酬を構成し、その後で古典的な Policy Gradient Theorem を用いる。さらに、罰則付き目的の正則性を確立し、PGP の収束を正当化するために必要な滑らかさの性質を示す。隠れた凸性と強双対性を活用することで、政策に起因する非凸性にもかかわらず、制約違反が制限された状態で、rac{1}{ ext{ }} ext{ }( ext{ } ext{ }
ight)—ではなく、
abla?(誤りなし)
abla—
abla? (誤りなし)
\epsilon-最適な制約付きエントロピー値を達成しつつ、グローバルな「最終イテレーション(last-iterate)」収束に関する保証を確立する。すなわち、
abla—(誤りなし)
(原文は数学記法のみであり、意図は以下)
abla?(誤りなし)
abla?(誤りなし)
—最終出力がペナルティ化のもとで所望の性質を満たすことを示す。私たちは、グリッドワールドのベンチマークに対するアブレーションによって PGP を検証し、さらに 2 つの難しい連続制御タスクにおいてスケーラビリティも実証する。