HP-Edit:画像編集のための人間嗜好(Human Preference)に基づくポストトレーニングフレームワーク

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

要点

  • 本論文は、拡散モデルによる画像編集の出力を人間の嗜好に合わせることを目的としたポストトレーニングの枠組み「HP-Edit」を提案する。
  • 画像編集におけるRLHFを実現するため、少量の人間の嗜好スコアデータと事前学習済みVLM(視覚言語モデル)を用いて自動評価器「HP-Scorer」を構築する。
  • HP-Scorerは、スケーラブルな嗜好データセットの効率的な構築だけでなく、編集モデルのポストトレーニングにおける報酬関数としても用いられる。
  • 「RealPref-50K」は8つの代表的な編集タスクを扱い(共通の物体編集をバランス化)、さらに「RealPref-Bench」は実環境での編集性能を評価するためのベンチマークとして提示される。
  • 実験により、HP-EditがQwen-Image-Edit-2509のようなモデルで、人間の嗜好により近い出力へ大きく改善できることが示される。

要旨: 一般的な画像編集タスクは、現実世界のコンテンツ編集に対する主要なパラダイムとして、強力な生成拡散モデルを採用することが多い。一方で、Diffusion-DPO や Flow-GRPO のような強化学習(RL)手法により生成品質はさらに向上したものの、拡散ベースの編集に対して人間のフィードバックからの強化学習(RLHF)を効率的に適用することは、さまざまな編集ニーズに対応したスケーラブルな人間の選好データセットおよび枠組みが不足しているため、依然としてほとんど未検討である。このギャップを埋めるために、本研究では、人間の選好に整合した編集のためのポストトレーニング枠組みである HP-Edit を提案し、さらに 8 つの一般的タスクにまたがり、一般的な対象(オブジェクト)編集のバランスも取った実世界データセット RealPref-50K を導入する。具体的には、HP-Edit は少量の人間の選好スコアリングデータと、事前学習済みの視覚大型言語モデル(VLM)を用いて、HP-Scorer――自動的で、人間の選好に整合した評価器――を開発する。次に、HP-Scorer を用いて、大規模な選好データセットを効率的に構築するだけでなく、編集モデルのポストトレーニングにおける報酬関数としても機能させる。加えて、実世界における編集性能を評価するためのベンチマーク RealPref-Bench を導入する。大規模な実験の結果、提案手法が Qwen-Image-Edit-2509 のようなモデルの出力を人間の選好により一層近づけることを、顕著に示した。