再学習できない政策に対するポストトレーニング・ステアリングの統一的な閉形式ビュー：オフライン強化学習における

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

共有:

要点

本論文は、オフライン強化学習で学習済みの俳優（actor）が凍結され再学習できない状況を想定し、ゴール条件付き事前分布とProduct-of-Experts（PoE）合成によってデプロイ時の目的を適応させる方法を検討する。
著者らは、劣化したりランダムな事前分布であってもPoE型ステアリングが「円滑な性能劣化（graceful degradation）」を示し、加算型や事前分布のみの適応は性能が崩れる可能性があることを見出す。
閉形式の同値性として、対角ガウスの政策・事前分布を仮定すると、PoEの係数αはKL正則化適応のβ = α/(1-α) による決定論的方策と一致し、異なるのは主に事後共分散がグローバルなスカラーだけ変わる点だと示す。
実験では、D4RLおよびAntMazeにわたって、medium-expertの凍結俳優には「俳優能力の天井（actor-competence ceiling）」があり、さらに行動クローン化した凍結俳優をAntMazeで用いると、合成ルールを問わず成功率がゼロになるなどの結果が報告される。
全体として本研究は、PoEとKL正則化適応を、普遍的な性能向上というより「俳優にアンカーされた安全機構」としてデプロイ時のステアリングを捉えるべきだと位置づける。

Abstract

オフライン強化学習（RL）は固定データセットから効果的な方策を学習できますが、学習後に展開（デプロイ）の目的が変わり得ます。また、多くのアプリケーションでは、データ、コスト、ガバナンス上の制約のために、学習済みのアクターを再学習できないことがあります。本研究では、目標条件付き事前分布を用いた Product-of-Experts（PoE）合成により、凍結したオフライン・アクターに対する展開時（デプロイ時）の適応を検討します。主要な実務上の発見は、「普遍的な性能向上」ではなく「損失の少ない（graceful）劣化」です。劣化した、あるいはランダムな事前分布の下では、精度（precision）で重み付けした合成は凍結アクターによりアンカーされ続けます。一方で、加法的な適応および事前分布のみの適応は崩壊し、KL予算セレクタはしばしばニア・オラクルな運用点を回復します。さらに、凍結アクター設定における閉形式の恒等式を明示します。対角ガウス分布のアクターと事前分布において、係数alphaのPoEは、beta = alpha / (1 - alpha) によるKL正則化適応と同じ決定論的方策を与えます。事後共分散の違いは、グローバルなスカラー係数のみです。実験的には、4つのD4RL環境（3,900 MuJoCoエピソード）にわたって、4/5/3の HELP/FROZEN/HURT に分かれることを観察します。解析を、より難しい6つのセルと2つのAntMaze診断へ拡張すると、アクター能力の上限が見えてきます。ミディアム・エキスパートは、テストした全てのalphaにおいて、9つのセルすべてでHURTのままです。さらに、挙動クローニングした凍結アクターを用いたAntMazeでは、全ての合成ルールで成功率がゼロになります。総合すると、PoEとKL正則化適応は、展開時の操舵（steering）に対する、アクターにアンカーされた単一の安全メカニズムとして最もよく捉えられます。