PosterIQ:ポスター理解と生成のための設計観点ベンチマーク

arXiv cs.CV / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PosterIQは、ポスター理解と生成のための設計主導のベンチマークとして導入され、実在/プロフェッショナル/合成の例にわたって、構図構造、タイプグラフィ上の階層、そして意味的意図が注釈付きで示される。
  • データセットには7,765件の画像-注釈インスタンスと822件の生成プロンプトが含まれ、タスクはレイアウト解析、テキストと画像の対応関係、タイポグラフィ/可読性とフォント知覚、デザイン品質の評価、さらに(比喩を含む)構図を意識した制御可能な生成をカバーする。
  • 最先端のMLLMと拡散ベースの生成器の評価により、視覚的階層、タイポグラフィの意味論、注目度(サリエンシー)制御、そして意図の正確な伝達におけるギャップが継続していることが明らかになる。
  • 結果は、商用MLLMがより高次の推論には優れる一方で、感度の低い自動評価者として振る舞うことを示唆する。さらに、拡散生成器はテキストの描画は得意でも、構図を意識した合成には苦戦する。
  • 著者らはPosterIQを、再現可能なタスク固有の指標を用いて、視覚言語および生成システムにおけるデザイン推論を定量的に評価し、診断し、改善するためのベンチマークであると位置付けている。

Abstract

我々は、ポスター理解および生成のための、デザイン主導のベンチマークであるPosterIQを提示します。これは、構成構造、タイポグラフィ階層、意味意図にわたって注釈が付与されています。これには、7,765件の画像注釈インスタンスと、実在の専門的事例、合成事例を含む822件の生成プロンプトが含まれます。視覚デザインの認知と生成モデリングを橋渡しするために、レイアウト解析、テキスト-画像対応、タイポグラフィ/可読性およびフォント知覚、デザイン品質評価、そして比喩を伴う、制御可能で構成に配慮した生成のためのタスクを定義します。最先端のMLLMと拡散ベースの生成器を評価したところ、視覚的階層、タイポグラフィの意味論、注目(サリエンシー)の制御、意図の伝達において、継続的なギャップが見られました。商用モデルは高レベルの推論では優位ですが、鈍感な自動評価者のように振る舞います。一方で生成器はテキストをよく描画しますが、構成に配慮した合成は難しいことが分かります。広範な分析により、PosterIQが定量的ベンチマークであると同時に、デザイン推論のための診断ツールでもあることを示します。再現可能で、タスク固有の指標を提供します。我々は、モデルの創造性を触発し、人間中心のデザイン原則を生成ビジョン-言語システムに統合することを目指します。