AI Navigate

Recolour What Matters: トークンレベル拡散による領域認識カラー編集

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

要点

  • ColourCrafter は latent space における RGB 色トークンと画像トークンのトークンレベル融合を提案し、局所性と構造忠実度をグローバルなトーン転送手法より向上させた領域認識の色編集を可能にする。
  • 色情報を意味的に関連する領域に選択的に伝搬させ、画像の元の構造を保持する。
  • 知覚的 Lab 色空間に基づく損失は、輝度と色度を分離し、マスク領域内での編集を制約して、ピクセルレベルの精度を高める。
  • 本研究は、連続的で多様な色変化を含む画像ペアの大規模データセット ColourfulSet を導入し、色精度、制御性、知覚忠実度の最先端性能を示している。

Abstract

色は画像生成において最も知覚的に顕著でありながら、制御が難しい属性の1つです。近年の拡散モデルはユーザーの指示から物体の色を変更できますが、その結果は意図した色相から逸れることが多く、特に細粒度・局所的な編集の場合にそうなりがちです。初期のテキスト駆動法は、連続的な彩度変化を正確に表現できない離散的な言語記述に依存しています。この制限を克服するために、ColourCrafterを提案します。これは色の編集を全体的なトーン転送から構造化された領域認識型生成プロセスへと変換する統一拡散フレームワークです。従来の色駆動法とは異なり、ColourCrafterは潜在空間でRGBカラー・トークンと画像トークンのトークンレベルの融合を行い、意味的に関連する領域へ色情報を選択的に伝播させつつ、構造的忠実性を保持します。知覚的Lab空間ロスは、輝度と色度を分離し、マスクされた領域内で編集を制約することで、ピクセルレベルの精度をさらに高めます。さらに、連続的で多様な色の変化を持つ高品質な画像ペアの大規模データセットColourfulSetを構築します。大規模な実験により、ColourCrafterは細粒度の色編集において最先端の色精度、可制御性、知覚的忠実度を達成することを示しています。私たちのプロジェクトはhttps://yangyuqi317.github.io/ColourCrafter.github.io/で公開されています。