閉・開環境における統一的意味・空間評価による、レイアウト誘導型拡散モデルのベンチマーク
arXiv cs.CV / 2026/4/29
📰 ニュースModels & Research
要点
- 本論文は、レイアウト誘導型テキストから画像生成の拡散モデルに対して、プロンプトとの意味整合とレイアウトへの空間的忠実性の両方をどう評価するかという課題に取り組んでいます。
- 閉集合ベンチマークのC-Bench(制御されたプロンプト/レイアウトの複雑さ)と、実世界のプロンプト/レイアウトを用いる開集合ベンチマークのO-Bench(現場での性能を評価)を提案しています。
- 意味精度と空間精度を統合して単一スコアにまとめる評価プロトコルを開発し、モデル間で一貫したランキングを可能にしています。
- 6つの最先端のレイアウト誘導型拡散モデルを対象に、大規模評価として319,086枚の生成・評価画像を用い、総合順位に加えてテキスト整合とレイアウト整合の詳細内訳を提示しています。
- シナリオやプロンプトの複雑さによってモデルの強み・弱みがどう変わるかを詳細に分析し、あわせてコードも公開しています。


