ペナルティ正則化による制約付き探索のためのグローバル最適性

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全性や資源制約、模倣要件といった現実的な制約下での強化学習における効率的な探索を扱い、状態—行動の占有分布のエントロピー最大化が難しくなる点を示しています。
  • エントロピー最大化は加法的構造を欠くためベルマン方程式に基づく手法が適用しにくく、さらに方策のパラメータ化が目的と制約の双方に非凸性をもたらすことが課題として挙げられています。
  • 提案手法は Policy Gradient Penalty(PGP)で、占有分布に関する一般の凸制約を二次ペナルティ正則化で満たす「単一ループ」の方策空間手法です。
  • PGPは疑似報酬を構成してペナルタイズされた目的関数の勾配推定を行い、加えてペナルタイズ目的の正則性(滑らかさ)を示すことで収束の根拠を与えます。
  • 隠れた凸性と強双対性を用いて、政策誘導の非凸性があってもグローバルな最後反復収束を保証し、εの範囲で制約違反を抑えつつε最適な制約付きエントロピーを達成すると報告しています。

Abstract

効率的な探索は強化学習における中心的な問題であり、しばしば状態・行動の占有測度のエントロピーを最大化することとして定式化される。制約のない最大エントロピー探索は比較的よく理解されている一方で、現実世界での探索は安全性、資源、あるいは模倣といった要件によって制約されることが多い。この制約付きの設定は特に難しい。なぜなら、エントロピー最大化には加法的な構造が欠けており、ベルマン方程式に基づく手法が適用できないからである。さらに、スケーラブルな手法には方策のパラメータ化が必要となり、その結果として目的関数と制約の双方に非凸性が生じる。私たちの知る限り、この設定において一般の方策パラメータ化のもとで、モデルフリーの方策勾配アプローチとして先行しているのは Ying ら(2025)によるものだけである。しかし残念ながら、彼らの保証は弱い regret(後悔)とエルゴード平均に限られており、最終的な出力が、最適に近くかつ実現可能性(実行可能性)がほぼ満たされる単一のデプロイ可能な方策であることを意味しない。本研究では、この問題に対して別のアプローチを取り、Policy Gradient Penalty(PGP)法を提案する。PGP は単一ループの方策空間手法であり、二次ペナルティ正則化を通じて、一般の凸な占有測度制約を強制する。PGP は、罰則付き目的の勾配推定値を与える疑似報酬を構成し、その後で古典的な Policy Gradient Theorem を用いる。さらに、罰則付き目的の正則性を確立し、PGP の収束を正当化するために必要な滑らかさの性質を示す。隠れた凸性と強双対性を活用することで、政策に起因する非凸性にもかかわらず、制約違反が制限された状態で、rac{1}{ ext{ }} ext{ } ext{ } ext{ } ight)—ではなく、 abla?(誤りなし) abla abla? (誤りなし) \epsilon-最適な制約付きエントロピー値を達成しつつ、グローバルな「最終イテレーション(last-iterate)」収束に関する保証を確立する。すなわち、 abla—(誤りなし) (原文は数学記法のみであり、意図は以下) abla?(誤りなし) abla?(誤りなし) —最終出力がペナルティ化のもとで所望の性質を満たすことを示す。私たちは、グリッドワールドのベンチマークに対するアブレーションによって PGP を検証し、さらに 2 つの難しい連続制御タスクにおいてスケーラビリティも実証する。