SiMPO: オンライン拡散強化学習のための測度マッチング
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- SiMPO は Signed Measure Policy Optimization の略で、任意の単調重み付け関数を用いて再重み付けを一般化する拡散ポリシーの統一的強化学習フレームワークである。
- この手法は二段階の測度マッチングアプローチを用いる。まず、符号付き(負になる可能性のある)目標測度を許容する f-ダイバージェンス正則化を用いた仮想ターゲットポリシーを作成し、次にこの符号付き測度を再重み付けマッチングを通じて拡散モデルやフローモデルを導く。
- 目標測度の非負制約を緩和し、負の再重み付けを可能にする。これにより、負の重み付けがポリシーをサブ最適な行動から排除するのを助けるという幾何的直観を提供する。
- 実験結果は、SiMPO が報酬ランドスケープに合わせて再重み付けスキームを柔軟に選択することで、既存の拡散 RL 手法を上回ることができることを示し、手法選択の実用的なガイドラインを提供する。
要旨: 拡散ポリシーのための一般的に用いられる強化学習アルゴリズムの多くは、ビヘイビアポリシー上でソフトマックス再重み付けを行い、通常は過度にグリーディなポリシーを生み出し、負のサンプルからのフィードバックを活用できない。本研究では、Signed Measure Policy Optimization (SiMPO) を紹介する。これは、一般的な単調関数を用いた再重み付けスキームを一般化する、シンプルで統一的なフレームワークである。SiMPO は、二段階の測度マッチングの視点から拡散 RL を再検討する。まず、$f$-divergence 正則化ポリシー最適化により仮想ターゲットポリシーを構築し、非負制約を緩和して符号付きのターゲット測度を許容する。次に、この符号付き測度を再重み付けマッチングを通じて拡散モデルまたはフローモデルを導く。 この定式化には二つの重要な利点がある。a) 任意の単調増加の重み付け関数へ一般化できること。b) 負の再重み付けに対する原理的な正当化と実用的な指針を提供すること。さらに、負の再重み付けがポリシーをサブ最適な行動から積極的に遠ざける様子を示す幾何学的解釈を提供する。 広範な実証評価は、SiMPO がこれらの柔軟な重み付けスキームを活用して優れた性能を達成することを示しており、報酬ランドスケープに合わせて再重み付け手法を選択するための実用的なガイドラインを提供する。