EditCaption:教師あり微調整と直接選好最適化による画像編集のための人間整合型指示合成

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、VLMが生成した画像編集指示における3つの共通で体系的な失敗モード—方向の不整合、視点の曖昧さ、細かな属性情報の欠落—を特定し、下流の学習に用いる際に致命的なエラーを含むベースラインVLM指示が47%以上であることを報告している。
  • 提案手法のEditCaptionは、スケーラブルな2段階のポストトレーニングパイプラインであり、まず自動アノテーションに加えてEditScoreによるフィルタリングを行い、さらに空間・方向・属性の正確性に焦点を当てた人手の洗練によって10万件の教師あり微調整(SFT)データセットを構築する。
  • 第2段階では、これら3つの失敗モードを特に対象として、1万件の人間の選好ペアを収集し、SFTを超えて整合性を高めるために直接選好最適化(DPO)を適用する。
  • Eval-400、ByteMorph-Bench、HQ-Editでの実験により、微調整したQwen3-VLの派生モデルがオープンソースのベースラインを上回り、235Bモデルは強力なベンチマーク結果を達成するとともに、致命的エラーを大幅に削減(47.75% → 23%)し、正しさも向上(41.75% → 66%)させた。
  • 全体として、EditCaptionは、指示に基づく画像編集モデルをスケールするための、高品質で人間整合的な指示合成データを作るための実用的な道筋を提示する。

Abstract

高品質な学習用トリプレット(ソース画像とターゲット画像のペアに対する、正確な編集手順を含む)は、指示に基づく画像編集モデルをスケールさせるうえで重大なボトルネックです。視覚言語モデル(VLM)は、自動的な指示合成に広く用いられていますが、画像ペア設定において3つの体系的な失敗モードを特定します。すなわち、向きの不整合(例:左右の取り違え)、視点の曖昧さ、きめ細かな属性の記述不足です。人手評価では、強力なベースラインVLMから生成された指示のうち47%以上が、下流の学習に利用できない致命的な誤りを含むことが示されています。我々は、VLMベースの指示合成のための、スケーラブルな二段階のポストトレーニングパイプラインであるEditCaptionを提案します。第1段階では、GLMによる自動アノテーション、EditScoreに基づくフィルタリング、空間・方向・属性レベルの精度を高めるための人手による改良を組み合わせることで、100K件の教師あり微調整(SFT)データセットを構築します。第2段階では、3つの失敗モードを対象とした10K件の人間の嗜好ペアを収集し、SFT単独を超えて整合させるために直接嗜好最適化(DPO)を適用します。Eval-400、ByteMorph-Bench、HQ-Editにおいて、微調整したQwen3-VLモデルはオープンソースのベースラインを上回ります。235BモデルはEval-400で4.712を達成(Gemini-3-Pro 4.706、GPT-4.1 4.220、Kimi-K2.5 4.111に対して)し、ByteMorph-Benchで4.588を達成(Gemini-3-Pro 4.522、GPT-4.1 3.412に対して)します。人手評価では、致命的な誤りが47.75%から23%へ低下し、正確性が41.75%から66%へ上昇したことが示されています。本研究は、画像編集データに対して、スケーラブルかつ人間に整合した指示合成を実現する実用的な道筋を提供します。