画像編集における検証器ベース強化学習の活用

arXiv cs.CV / 2026/5/1

📰 ニュースModels & Research

要点

  • 本論文は、画像編集に強化学習を適用するには、従来の編集用報酬モデルのように粗い総合スコアしか出さないのでは不十分で、より頑健な汎用的報酬モデリングが必要だと主張しています。
  • そこで Edit-R1 と、その中核となる Edit-RRM を提案し、chain-of-thought(CoT)に基づく「推論検証器」を用いて指示を原則に分解し、編集後画像を各原則に照らして評価して、解釈可能なきめ細かな報酬を生成します。
  • 報酬モデル(RRM)の構築には、まず CoT の報酬軌跡を生成するために教師あり微調整(SFT)でコールドスタートを行い、その後、人間のペアごとの嗜好データを用いて Group Contrastive Preference Optimization(GCPO)で学習します。
  • さらに、非微分可能ながら強力なこの報酬モデルを使って、GRPO により画像編集モデルを学習させます。
  • 実験では Edit-RRM が編集専用報酬モデルとして Seed-1.5-VL や Seed-1.6-VL などの強力な VLM を上回り、3B から 7B までのスケーリングで性能が一貫して向上し、FLUX.1-kontext のような編集モデルにも改善効果があることが示されています。

要旨: 人間のフィードバックからの強化学習(RLHF)はテキストから画像への生成における重要なパラダイムとなっていますが、画像編集への適用はいまだほとんど未開拓です。主要なボトルネックは、すべての編集タスクに対して頑健な汎用報酬モデルが欠けていることです。既存の編集報酬モデルは、詳細な検査を行わずに全体スコアを与えることが多く、異なる指示要件を無視するため報酬が偏ってしまいます。これに対処するため、我々は単なるスコアリング器から、推論検証器へ移行することが鍵だと主張します。本稿では、Edit-R1 という枠組みを提案します。これは、チェーン・オブ・ソート(CoT)検証器に基づく推論報酬モデル(RRM)を構築し、その後これを下流の画像編集に活用します。Edit-RRM は、指示を異なる原則へと分解し、編集後の画像を各原則に照らして評価し、これらの検査結果を解釈可能できめ細かな報酬へと集約します。このような RRM を構築するために、まず教師あり微調整(SFT)を「コールドスタート」として適用し、CoT 報酬トラジェクトリを生成します。次に、人間による対(ペア)単位の嗜好データを活用して、点ごとの RRM を強化する強化学習アルゴリズムである Group Contrastive Preference Optimization(GCPO)を導入します。RRM を構築した後、微分不可能だが強力なこの報酬モデルを用いて、GRPO により編集モデルを訓練します。大規模な実験により、我々の Edit-RRM は編集特化の報酬モデルとして Seed-1.5-VL や Seed-1.6-VL のような強力な VLM を上回ることを示します。また、3B から 7B パラメータへと一貫して性能が向上する、明確なスケーリング傾向も観測されます。さらに、Edit-R1 は FLUX.1-kontext のような編集モデルにも改善をもたらし、画像編集を強化するうえでの有効性を明確に示しています。