ポジティブのみドリフト方策最適化（PODPO）

arXiv cs.LG / 2026/4/21

📰 ニュースModels & Research

共有:

要点

本論文は、オンライン強化学習に向けて、ガウス方策やフローベース手法の表現力・学習制約（複雑な勾配クリッピングやトラストリージョン要件など）の課題を回避することを目指した「ポジティブのみドリフト方策最適化（PODPO）」を提案しています。
PODPOは尤度フリーで勾配クリッピング不要であり、生成モデルである「ドリフト・モデル」を用いて、アドバンテージに重み付けした局所コントラスト的ドリフトによって方策を更新します。
従来のように負例を事後的に罰して誤った行動を修正するのではなく、高いリターン領域へ行動を導くために「正のアドバンテージ」サンプルのみで学習します。
さらに、生成モデルの局所的な滑らかさを活かして誤りを事前に防ぐことができるとしており、オンライン設定での生成型方策学習の新しい方向性を示しています。