CPT: Controllable and Editable Design Variations with Language Models

arXiv cs.LG / 4/7/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • この論文は、言語モデルを用いてデザインテンプレートの「編集可能な」バリエーションを生成するCreative Pre-trained Transformer(CPT)を提案している。
  • デザインの内容とスタイルを機械学習向けに扱うための新しい表現形式Creative Markup Language(CML)を導入し、キャンバス構造、レイアウト、要素(テキスト/画像/ベクター)を含めて表現する。
  • CPTはプロのデザイナーが作成した多数のデザインテンプレートで微調整され、色やフォントなどのスタイル属性を文脈に依存して予測できるようにしている。
  • 生成物はピクセル画像ではなく、内部の意味的構造とスタイルの整合性を保った「編集可能なデザインドキュメント」として出力され、デザインエディタで反復・パーソナライズできる。
  • 実験では、既存テンプレートの文脈に基づくカラーバリエーションやフォント変更に加え、レイアウト調整でも設計原則を維持できる可能性が示されている。

Abstract

Designing visually diverse and high-quality designs remains a manual, time-consuming process, limiting scalability and personalization in creative workflows. We present a system for generating editable design variations using a decoder-only language model, the Creative Pre-trained Transformer (CPT), trained to predict visual style attributes in design templates. At the core of our approach is a new representation called Creative Markup Language (CML), a compact, machine-learning-friendly format that captures canvas-level structure, page layout, and element-level details (text, images, and vector graphics), including both content and style. We fine-tune CPT on a large corpus of design templates authored by professional designers, enabling it to learn meaningful, context-aware predictions for attributes such as color schemes and font choices. The model produces semantically structured and stylistically coherent outputs, preserving internal consistency across elements. Unlike generative image models, our system yields fully editable design documents rather than pixel-only images, allowing users to iterate and personalize within a design editor. In experiments, our approach generates contextual color and font variations for existing templates and shows promise in adjusting layouts while maintaining design principles.