閉・開環境における統一的意味・空間評価による、レイアウト誘導型拡散モデルのベンチマーク

arXiv cs.CV / 2026/4/29

📰 ニュースModels & Research

要点

  • 本論文は、レイアウト誘導型テキストから画像生成の拡散モデルに対して、プロンプトとの意味整合とレイアウトへの空間的忠実性の両方をどう評価するかという課題に取り組んでいます。
  • 閉集合ベンチマークのC-Bench(制御されたプロンプト/レイアウトの複雑さ)と、実世界のプロンプト/レイアウトを用いる開集合ベンチマークのO-Bench(現場での性能を評価)を提案しています。
  • 意味精度と空間精度を統合して単一スコアにまとめる評価プロトコルを開発し、モデル間で一貫したランキングを可能にしています。
  • 6つの最先端のレイアウト誘導型拡散モデルを対象に、大規模評価として319,086枚の生成・評価画像を用い、総合順位に加えてテキスト整合とレイアウト整合の詳細内訳を提示しています。
  • シナリオやプロンプトの複雑さによってモデルの強み・弱みがどう変わるかを詳細に分析し、あわせてコードも公開しています。

Abstract

レイアウト誘導のテキストから画像生成モデルを評価するには、テキストプロンプトとの意味的整合性と、指定されたレイアウトに対する空間的忠実性の両方を評価する必要があります。レイアウト整合性を評価するには、細粒度の注釈を収集する必要があり、そのためのコストと労力が大きくなります。結果として、現在のベンチマークは包括的なレイアウト評価を提供することが稀であり、規模やカバレッジも限られがちであるため、モデルの比較、ランキング、解釈が難しくなっています。本研究では、主要な生成能力を切り分けることを目的としたクローズドセットのベンチマーク(C-Bench)を導入し、プロンプト構造とレイアウトの双方において複雑さのレベルを変化させながら評価できるようにします。この制御された設定を補完するものとして、実世界のプロンプトとレイアウトを用いてモデルを評価するオープンセットのベンチマーク(O-Bench)も提案します。これにより、「野外」での意味的・空間的整合性を測定できます。さらに、意味的正確さと空間的正確さを1つのスコアに統合し、モデルのランキングを一貫して行える統一評価プロトコルを開発します。提案するベンチマークを用いて、6つの最先端のレイアウト誘導拡散モデルに対して大規模な評価を実施し、生成・評価した画像の総数は319,086枚にのぼります。モデルの総合性能に基づくランキングを確立するとともに、テキストとレイアウトの整合性について詳細な内訳を示し、解釈可能性を高めます。さまざまなシナリオおよびプロンプトの複雑さにまたがる細粒度の分析により、現在のモデルの強みと限界を明らかにします。コードは https://github.com/lparolari/cobench で公開されています。