広告

AceTone:言葉と色をつなぐ条件付き画像グレーディング

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • AceToneは、テキストプロンプトと参照画像の両方によって駆動できる、新しいマルチモーダルな統一フレームワークとして提示される条件付き画像のカラーグレーディング手法である。
  • この手法はカラーグレーディングを生成的変換タスクとして再定式化し、3D-LUTを出力する。VQ-VAEトークナイザを用いてLUTを64個の離散トークンに圧縮しつつ、ΔE<2の忠実度を維持する。
  • 著者らは大規模データセット「AceTone-800K」を導入し、視覚言語モデルを訓練してLUTトークンを予測し、その後、知覚的忠実度と審美的嗜好によりよく一致させるために強化学習を適用する。
  • 実験結果によれば、テキストガイドおよび参照ガイドの両方で最先端の性能が達成されており、先行手法に対してLPIPSが最大50%改善したことが報告されている。
  • 人手評価では、生成されたカラースタイルが見た目に心地よく、スタイルとしても一貫していることが示されており、AceToneが言語駆動かつ審美に整合したカラーグレーディングへ向けた一歩であることを位置づけている。

要旨: 色は、画像のスタイルや感情を私たちがどのように解釈するかに影響します。従来のカラーグレーディング手法は、パッチ単位での再着色や固定されたフィルターバンクに依存しており、創造的意図の違いにまたがって汎化することや、人間の美的嗜好と整合することが難しいという課題があります。本研究では、単一の枠組みの中でマルチモーダル条件付きカラーグレーディングを可能にする最初の手法として、AceToneを提案します。AceToneは、グレーディングを生成的な色変換タスクとして定式化し、モデルがテキストプロンプトまたは参照画像に条件付けられて直接3D-LUTを生成します。さらに、VQ-VAEに基づくトークナイザを開発し、3\times32^3 のLUTベクトルを、E<2 の忠実度を満たす 64 個の離散トークンへ圧縮します。加えて、大規模データセット AceTone-800K を構築し、LUTトークンを予測するための視覚言語モデルを学習した上で、知覚的忠実度と美しさに出力を整合させるために強化学習を行います。実験の結果、AceToneはテキスト誘導および参照誘導の両方のグレーディング課題において最先端の性能を達成し、既存手法に比べてLPIPSを最大50%改善することが示されました。人手による評価では、AceToneの結果が視覚的に心地よく、スタイル的にも一貫していることが確認され、言語駆動かつ美的に整合したカラーグレーディングへの新しい道筋を示しています。

広告