PosterIQ:ポスター理解と生成のための設計観点ベンチマーク
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- PosterIQは、ポスター理解と生成のための設計主導のベンチマークとして導入され、実在/プロフェッショナル/合成の例にわたって、構図構造、タイプグラフィ上の階層、そして意味的意図が注釈付きで示される。
- データセットには7,765件の画像-注釈インスタンスと822件の生成プロンプトが含まれ、タスクはレイアウト解析、テキストと画像の対応関係、タイポグラフィ/可読性とフォント知覚、デザイン品質の評価、さらに(比喩を含む)構図を意識した制御可能な生成をカバーする。
- 最先端のMLLMと拡散ベースの生成器の評価により、視覚的階層、タイポグラフィの意味論、注目度(サリエンシー)制御、そして意図の正確な伝達におけるギャップが継続していることが明らかになる。
- 結果は、商用MLLMがより高次の推論には優れる一方で、感度の低い自動評価者として振る舞うことを示唆する。さらに、拡散生成器はテキストの描画は得意でも、構図を意識した合成には苦戦する。
- 著者らはPosterIQを、再現可能なタスク固有の指標を用いて、視覚言語および生成システムにおけるデザイン推論を定量的に評価し、診断し、改善するためのベンチマークであると位置付けている。