DLEBench: 命令ベースの画像編集モデルにおける小規模オブジェクト編集能力の評価

arXiv cs.CV / 2026/3/2

Ideas & Deep AnalysisModels & Research

共有:

要点

DLEBenchは命令ベースの画像編集モデルの小規模オブジェクトを正確に編集する能力を評価するために設計された初の専用ベンチマークです。
ベンチマークは1889件のチャレンジングなサンプルを含み、対象は画像面積の1%〜10%を占め、部分的な遮蔽や複数オブジェクト編集など複雑なシナリオを網羅しています。
命令遵守と視覚的一貫性に関する評価基準を含む厳密な評価プロトコルにより主観性を抑え、AIと人間の判断を調和させる二重評価モードを採用しています。
10種類の命令ベース画像編集モデルを検証した結果、小規模オブジェクト編集能力に大きな性能差があることが判明し、専門的なベンチマークとモデル改良の必要性を示しています。
本研究は、実用的かつ高品質な画像編集のために正確な局所編集と細部の調整が重要であることを強調しています。

この記事の続きは原文サイトでお読みいただけます。