EditCaption:教師あり微調整と直接選好最適化による画像編集のための人間整合型指示合成
arXiv cs.CV / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、VLMが生成した画像編集指示における3つの共通で体系的な失敗モード—方向の不整合、視点の曖昧さ、細かな属性情報の欠落—を特定し、下流の学習に用いる際に致命的なエラーを含むベースラインVLM指示が47%以上であることを報告している。
- 提案手法のEditCaptionは、スケーラブルな2段階のポストトレーニングパイプラインであり、まず自動アノテーションに加えてEditScoreによるフィルタリングを行い、さらに空間・方向・属性の正確性に焦点を当てた人手の洗練によって10万件の教師あり微調整(SFT)データセットを構築する。
- 第2段階では、これら3つの失敗モードを特に対象として、1万件の人間の選好ペアを収集し、SFTを超えて整合性を高めるために直接選好最適化(DPO)を適用する。
- Eval-400、ByteMorph-Bench、HQ-Editでの実験により、微調整したQwen3-VLの派生モデルがオープンソースのベースラインを上回り、235Bモデルは強力なベンチマーク結果を達成するとともに、致命的エラーを大幅に削減(47.75% → 23%)し、正しさも向上(41.75% → 66%)させた。
- 全体として、EditCaptionは、指示に基づく画像編集モデルをスケールするための、高品質で人間整合的な指示合成データを作るための実用的な道筋を提示する。




