ParetoSlider:連続的な報酬制御のための拡散モデル・ポストトレーニング
arXiv cs.LG / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、生成モデルのRLポストトレーニングで一般的に単一のスカラー報酬が用いられがちであり、それが「早期スカラー化」により固定の重み付き和へ収束すると、相反する目的に対する推論時の柔軟性が失われると指摘しています。
- ParetoSliderは、連続的に変化する選好(preference)重みを条件信号として用い、単一の拡散モデルでパレート最適曲線(パレートフロント)全体を近似するマルチ目的RL(MORL)枠組みを提案します。
- これにより、ユーザーは推論時に学習し直したり複数のチェックポイントを維持したりすることなく、報酬のトレードオフを選択・移動できるようになります。
- 評価では3つのフローモデル系のバックボーン(SD3.5、FluxKontext、LTX-2)を用い、固定トレードオフごとに別途学習したベースラインと同等以上の性能を、単一の選好条件付きモデルが達成したと報告しています。
- 主な利点として、たとえば画像編集での「プロンプト遵守」と「ソース忠実度」のような競合する生成目標に対する細かな制御が、従来手法では難しい点を挙げています。




