CreatiParser：ラスタ画像のグラフィックデザインを編集可能なレイヤーへ生成的に解析

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

共有:

要点

CreatiParserは、テキスト・背景・ステッカーの3要素に分解し、ラスタのグラフィックデザイン画像を編集可能なレイヤーへ変換する生成的手法を提案しています。
本手法では、テキスト領域をビジョン言語モデルで「テキスト描画プロトコル」に解析することで、より忠実な再構成と下流での再編集を容易にしています。
背景とステッカーの各レイヤーは、RGBA対応のマルチブランチ拡散アーキテクチャで生成し、従来のマルチステージ方式に比べて制御性の向上を狙っています。
人のデザイン嗜好により近づけるためにParserRewardを導入し、Group Relative Policy Optimizationで学習することで品質整合を図り、Parser-40KとCrelloの2データセットで全指標の平均23.7%向上を報告しています。
実験では、エラー蓄積や編集制御の制約といった課題を改善しつつ、既存のグラフィックデザイン解析手法より優れた性能が示されています。

要旨: グラフィックデザインの画像は、テキスト、背景、装飾要素などの複数の編集可能なレイヤーから構成される一方で、ほとんどの生成モデルは明示的なレイヤー構造を持たずにラスター化された出力を生成するため、下流の編集が制限される。既存のグラフィックデザイン解析手法は典型的に、レイアウト予測、マッティング、インペインティングを組み合わせた多段階パイプラインに依存しており、誤差の蓄積や制御性の限定といった問題がある。我々は、ラスターからレイヤーへのグラフィックデザイン解析のためのハイブリッドな生成フレームワークを提案する。これにより、デザイン画像を編集可能なテキスト、背景、ステッカーレイヤーに分解する。テキスト領域は、視覚言語モデルを用いてテキスト描画プロトコルへと解析し、忠実な再構成と柔軟な再編集を可能にする。一方、背景およびステッカーレイヤーは、RGBA 対応を備えたマルチブランチ拡散アーキテクチャによって生成する。さらに、ParserReward を導入し、Group Relative Policy Optimization と統合することで、生成品質を人間のデザイン嗜好に整合させる。扱いが難しい 2 つのデータセット、
\emph{i.e.,} Parser-40K および Crello データセット、に対する大規模な実験により、既存手法よりも優れた性能を示し、例えば全指標にわたる全体平均で 23.7\% の改善を達成するなどの結果が得られた。