再学習できない政策に対するポストトレーニング・ステアリングの統一的な閉形式ビュー:オフライン強化学習における
arXiv cs.LG / 2026/4/28
📰 ニュースModels & Research
要点
- 本論文は、オフライン強化学習で学習済みの俳優(actor)が凍結され再学習できない状況を想定し、ゴール条件付き事前分布とProduct-of-Experts(PoE)合成によってデプロイ時の目的を適応させる方法を検討する。
- 著者らは、劣化したりランダムな事前分布であってもPoE型ステアリングが「円滑な性能劣化(graceful degradation)」を示し、加算型や事前分布のみの適応は性能が崩れる可能性があることを見出す。
- 閉形式の同値性として、対角ガウスの政策・事前分布を仮定すると、PoEの係数αはKL正則化適応のβ = α/(1-α) による決定論的方策と一致し、異なるのは主に事後共分散がグローバルなスカラーだけ変わる点だと示す。
- 実験では、D4RLおよびAntMazeにわたって、medium-expertの凍結俳優には「俳優能力の天井(actor-competence ceiling)」があり、さらに行動クローン化した凍結俳優をAntMazeで用いると、合成ルールを問わず成功率がゼロになるなどの結果が報告される。
- 全体として本研究は、PoEとKL正則化適応を、普遍的な性能向上というより「俳優にアンカーされた安全機構」としてデプロイ時のステアリングを捉えるべきだと位置づける。



