Recolour What Matters: トークンレベル拡散による領域認識カラー編集

arXiv cs.CV / 2026/3/20

📰 ニュースModels & Research

共有:

要点

ColourCrafter は latent space における RGB 色トークンと画像トークンのトークンレベル融合を提案し、局所性と構造忠実度をグローバルなトーン転送手法より向上させた領域認識の色編集を可能にする。
色情報を意味的に関連する領域に選択的に伝搬させ、画像の元の構造を保持する。
知覚的 Lab 色空間に基づく損失は、輝度と色度を分離し、マスク領域内での編集を制約して、ピクセルレベルの精度を高める。
本研究は、連続的で多様な色変化を含む画像ペアの大規模データセット ColourfulSet を導入し、色精度、制御性、知覚忠実度の最先端性能を示している。

Abstract

色は画像生成において最も知覚的に顕著でありながら、制御が難しい属性の1つです。近年の拡散モデルはユーザーの指示から物体の色を変更できますが、その結果は意図した色相から逸れることが多く、特に細粒度・局所的な編集の場合にそうなりがちです。初期のテキスト駆動法は、連続的な彩度変化を正確に表現できない離散的な言語記述に依存しています。この制限を克服するために、ColourCrafterを提案します。これは色の編集を全体的なトーン転送から構造化された領域認識型生成プロセスへと変換する統一拡散フレームワークです。従来の色駆動法とは異なり、ColourCrafterは潜在空間でRGBカラー・トークンと画像トークンのトークンレベルの融合を行い、意味的に関連する領域へ色情報を選択的に伝播させつつ、構造的忠実性を保持します。知覚的Lab空間ロスは、輝度と色度を分離し、マスクされた領域内で編集を制約することで、ピクセルレベルの精度をさらに高めます。さらに、連続的で多様な色の変化を持つ高品質な画像ペアの大規模データセットColourfulSetを構築します。大規模な実験により、ColourCrafterは細粒度の色編集において最先端の色精度、可制御性、知覚的忠実度を達成することを示しています。私たちのプロジェクトはhttps://yangyuqi317.github.io/ColourCrafter.github.io/で公開されています。

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

Tinybox - オフラインAIデバイス、1200億パラメータ

Hacker News

Recolour What Matters: トークンレベル拡散による領域認識カラー編集

要点

Abstract

関連記事

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Tinybox - オフラインAIデバイス、1200億パラメータ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer