PortraitCraft:ポートレートの構図理解と生成のためのベンチマーク

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PortraitCraftは、粗い美的スコアに焦点を当てた従来のデータセットや、制約のない生成に偏っていた課題を解決しつつ、構造化されたポートレート構図の理解と、制御可能なポートレート生成を推進するための統一ベンチマークとして導入される。
  • このベンチマークは、約50,000枚の厳選された実写ポートレート画像に基づき、多段階の教師情報(マルチレベル監督)を備えて構築されている。具体的には、全体の構図スコア、13の構図属性に関する注釈、説明テキスト、視覚的質問応答のペア、生成向けの構図志向の記述が含まれる。
  • ここでは、2つの連動したベンチマークタスク群が定義される。すなわち、構図理解(スコア予測、きめ細かな属性推論、画像に根ざしたVQA)と、明示的な構造化構図記述から行う構図を意識した生成である。
  • 著者らは、代表的なマルチモーダルモデルを用いた標準化された評価プロトコルとベースライン結果を提示し、より解釈可能な美的評価や属性レベルでの推論を目指している。
  • 理解と生成を、明示的な構図制約の下で統合することで、PortraitCraftは、解釈可能で構図を制御したポートレート合成に関する体系的研究を支えるものとして位置付けられる。