AI Navigate

NumColor: テキストから画像生成における正確な数値カラー制御

arXiv cs.CV / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本稿は、拡散モデルが数値カラーを正確に扱うのに苦労する原因として、サブワードトークン化がカラーコードを意味のないトークンに分解してしまう点を指摘している。
  • NumColor は、カラー・トークン集約機と、6,707 個の学習可能な埋め込みを含む ColorBook を導入し、カラーをテキストエンコーダの知覚的に均一な CIE Lab 空間へマッピングして、正確なカラー制御を可能にする。
  • Lab空間と埋め込み空間の幾何学的マッピングを強制するため、方向性整合と補間一貫性の2つの補助損失を用いて、滑らかなカラー補間を実現する。
  • NumColor-Data という合成データセットには 500,000 枚の画像が含まれ、カラーとピクセルの明確な対応を提供して ColorBook の訓練を行い、写真由来の注釈の曖昧さを回避する。
  • NumColor は、SD3、SD3.5、PixArt-α、PixArt-Σ などの複数の拡散モデルへゼロショットで転移し、GenColorBench 上で数値カラー精度を4~9倍、カラーの調和性を10~30倍改善する。

要約: テキストから画像への拡散モデルは自然言語説明から画像を生成する点では優れていますが、16進カラーコード (#FF5733) や RGB 値 (rgb(255,87,51)) のような数値カラーを解釈することには失敗します。この制限はサブワード・トークン化に由来します。カラーコードを意味的に無意味なトークンへ分解し、テキストエンコーダが一貫したカラー表現へ結び付けられないのです。複数の拡散アーキテクチャにわたる正確な数値カラー制御を可能にする NumColor を提案します。NumColor は 2 つのコンポーネントから成ります。1 つはトークン化に依存せずカラー指定を検出する Color Token Aggregator、もう 1 つは 6,707 個の学習可能な埋め込みを含み、カラーを感覚的に均一な CIE Lab 空間でテキストエンコーダの埋め込み空間へ写像する ColorBook。Lab と埋め込み空間の幾何的対応を強制するために、方向性整列 (directional alignment) と補間の一貫性 (interpolation consistency) の 2 つの補助損失を導入し、滑らかなカラー補間を可能にします。ColorBook を訓練するために、NumColor-Data を構築します。これは 50万枚のレンダリング画像からなる合成データセットで、色とピクセルの対応が明確で、写真データセットに内在するアノテーションの曖昧さを排除します。FLUX のみで訓練されているにもかかわらず、NumColor は SD3、SD3.5、PixArt-α、および PixArt-Σ へ、モデル固有の適応なしにゼロショット転移します。NumColor は、5つのモデルにおいて数値カラーの正確性を4~9倍向上させ、同時に GenColorBench ベンチマークでカラー調和スコアを10~30倍向上させます。