SiMPO: オンライン拡散強化学習のための測度マッチング

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

SiMPO は Signed Measure Policy Optimization の略で、任意の単調重み付け関数を用いて再重み付けを一般化する拡散ポリシーの統一的強化学習フレームワークである。
この手法は二段階の測度マッチングアプローチを用いる。まず、符号付き（負になる可能性のある）目標測度を許容する f-ダイバージェンス正則化を用いた仮想ターゲットポリシーを作成し、次にこの符号付き測度を再重み付けマッチングを通じて拡散モデルやフローモデルを導く。
目標測度の非負制約を緩和し、負の再重み付けを可能にする。これにより、負の重み付けがポリシーをサブ最適な行動から排除するのを助けるという幾何的直観を提供する。
実験結果は、SiMPO が報酬ランドスケープに合わせて再重み付けスキームを柔軟に選択することで、既存の拡散 RL 手法を上回ることができることを示し、手法選択の実用的なガイドラインを提供する。

要旨: 拡散ポリシーのための一般的に用いられる強化学習アルゴリズムの多くは、ビヘイビアポリシー上でソフトマックス再重み付けを行い、通常は過度にグリーディなポリシーを生み出し、負のサンプルからのフィードバックを活用できない。本研究では、Signed Measure Policy Optimization (SiMPO) を紹介する。これは、一般的な単調関数を用いた再重み付けスキームを一般化する、シンプルで統一的なフレームワークである。SiMPO は、二段階の測度マッチングの視点から拡散 RL を再検討する。まず、$f$-divergence 正則化ポリシー最適化により仮想ターゲットポリシーを構築し、非負制約を緩和して符号付きのターゲット測度を許容する。次に、この符号付き測度を再重み付けマッチングを通じて拡散モデルまたはフローモデルを導く。この定式化には二つの重要な利点がある。a) 任意の単調増加の重み付け関数へ一般化できること。b) 負の再重み付けに対する原理的な正当化と実用的な指針を提供すること。さらに、負の再重み付けがポリシーをサブ最適な行動から積極的に遠ざける様子を示す幾何学的解釈を提供する。広範な実証評価は、SiMPO がこれらの柔軟な重み付けスキームを活用して優れた性能を達成することを示しており、報酬ランドスケープに合わせて再重み付け手法を選択するための実用的なガイドラインを提供する。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

SiMPO: オンライン拡散強化学習のための測度マッチング

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも