大規模トリプルトデータセットによるインコンテキストなトーン・スタイル変換に向けて

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、フォトレタッチにおけるトーン・スタイル変換で、高品質な大規模トリプルトデータセットが不足しているために既存手法が自己教師ありや代理目的に依存せざるを得ず、能力が制限されている点を解決しようとしています。
  • 学習されたトーン・スタイル・スコアラを用いて各トリプルトのスタイル整合性を厳密に担保するデータ構築パイプラインにより、コンテンツ–参照画像–スタイル化画像の組からなる10万件規模の新しいデータセットTST100Kを提案します。
  • セマンティックな損失や不適切な色転送による画の美観低下を避けるため、両画像に同時に条件付けするインコンテキスト型の拡散ベース枠組みICToneを提案し、意味論的な転送をより良く行います。
  • さらにトーン・スタイル・スコアラに基づくリワードフィードバック学習を組み込み、スタイルの忠実度と視覚品質を高めた結果、定量指標と人手評価の両方で最先端の性能を示しています。

概要: 写真のレタッチのためのトーンスタイル転送は、参照画像のスタイリスティックなトーンを、所与のコンテンツ画像に適応させることを目的とします。しかし、スタイライズされたグラウンドトゥルースを備えた高品質で大規模なトリプレットデータセットが不足しているため、既存手法は自己教師ありまたは代理(プロキシ)目的に依存せざるを得ず、モデル能力が制限されます。このギャップを緩和するために、100,000件のコンテンツ-参照-スタイル化トリプレットからなる大規模データセットであるTST100Kを構築するデータ構築パイプラインを設計します。このパイプラインの中核では、各トリプレットに対して厳密なスタイル整合性を保証するためのトーンスタイルスコアラーを学習させます。さらに、既存手法は一般にコンテンツと参照の特徴を独立に抽出し、その後デコーダで融合しますが、これにより意味の損失が生じ、適切でない色の転送や、視覚的な美観の低下につながる可能性があります。そこで本研究では、両方の画像に同時に条件付けすることで、生成モデルのもつ意味的な事前知識を活用し、インコンテキストな方法でトーン転送を行う拡散ベースのフレームワークICToneを提案します。加えて、トーンスタイルスコアラーを用いた報酬(リワード)フィードバック学習を組み込むことで、スタイリスティックな忠実性と視覚品質を向上させます。実験の結果、TST100Kの有効性が示され、ICToneは定量的指標と人による評価の両方で最先端の性能を達成します。