ParetoSlider:連続的な報酬制御のための拡散モデル・ポストトレーニング

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、生成モデルのRLポストトレーニングで一般的に単一のスカラー報酬が用いられがちであり、それが「早期スカラー化」により固定の重み付き和へ収束すると、相反する目的に対する推論時の柔軟性が失われると指摘しています。
  • ParetoSliderは、連続的に変化する選好(preference)重みを条件信号として用い、単一の拡散モデルでパレート最適曲線(パレートフロント)全体を近似するマルチ目的RL(MORL)枠組みを提案します。
  • これにより、ユーザーは推論時に学習し直したり複数のチェックポイントを維持したりすることなく、報酬のトレードオフを選択・移動できるようになります。
  • 評価では3つのフローモデル系のバックボーン(SD3.5、FluxKontext、LTX-2)を用い、固定トレードオフごとに別途学習したベースラインと同等以上の性能を、単一の選好条件付きモデルが達成したと報告しています。
  • 主な利点として、たとえば画像編集での「プロンプト遵守」と「ソース忠実度」のような競合する生成目標に対する細かな制御が、従来手法では難しい点を挙げています。

Abstract

強化学習(RL)のポストトレーニングは、生成モデルを人間の嗜好に整合させるための標準となってきましたが、多くの手法は単一のスカラー報酬に依存しています。複数の基準が重要となる場合、「早期スカラー化」の既存の慣行では、報酬が固定された重み付き和に崩壊してしまいます。これにより、モデルは学習時に単一のトレードオフ点へ固定され、画像編集における「プロンプトへの順守」と「元ソースの忠実性」のように、本質的に相反する目標について、推論時の制御を提供できません。我々は、パレート前線全体を近似する単一の拡散モデルを訓練する、多目的RL(MORL)フレームワークであるParetoSliderを導入します。嗜好重みを連続的に変化させるものを条件づけ信号としてモデルを訓練することで、ユーザは推論時に、再学習や複数のチェックポイントの維持を行うことなく、最適なトレードオフをナビゲートできるようになります。 我々は、ParetoSliderを最先端のフローマッチングバックボーン3つ、すなわちSD3.5、FluxKontext、LTX-2にわたって評価します。単一の嗜好条件付きモデルは、固定報酬のトレードオフごとに別々に訓練したベースラインの性能に匹敵するか、それを上回りつつ、さらに競合する生成目標に対して独自のきめ細かな制御を提供します。