概要: スタイル転送は、基礎となるセマンティックなレイアウトおよび構造的なジオメトリを保持しつつ、参照スタイルの視覚的特徴でコンテンツ画像を描画することを目的とします。近年の拡散ベースのモデルは、強力な生成的事前分布と制御可能な内部表現を活用することで、高いスタイリング能力を示している一方で、通常は単一のグローバルスタイルを前提としています。これらをマルチスタイルの状況へ拡張すると、多数のスタイル表現間の干渉により、境界アーティファクト、スタイリングの不安定化、ならびに構造的一貫性の欠如が生じることが多くなります。これらの制約を克服するために、本研究では MAST(Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer)を提案します。これは、拡散の注意機構内でコンテンツとスタイルの相互作用を明示的に制御する、学習不要の新しい枠組みです。アーティファクトのない、かつ構造を保持したスタイリングを実現するために、MAST は4つの連結されたモジュールを統合します。第一に、レイアウト保持クエリアンカーリング(Layout-preserving Query Anchoring)は、コンテンツクエリを用いて意味構造をしっかりと固定することで、グローバルなレイアウト崩壊を防ぎます。第二に、ロジットレベルのアテンション質量配分(Logit-level Attention Mass Allocation)は、空間領域間で注意確率の質量を決定論的に分配し、境界アーティファクトなしに複数のスタイルをシームレスに融合します。第三に、シャープネス認識温度スケーリング(Sharpness-aware Temperature Scaling)は、マルチスタイル拡張によって劣化した注意のシャープネスを復元します。最後に、不一致認識ディテール注入(Discrepancy-aware Detail Injection)は、構造的な不一致を測定することで、局所的な高周波ディテールの損失を適応的に補償します。広範な実験により、MAST が境界アーティファクトを効果的に抑制し、構造的な一貫性を維持できることが示されました。さらに、適用するスタイル数が増えても、テクスチャの忠実性と空間的な整合性が保たれます。
MAST: トレーニング不要のマルチスタイル転送のためのマスク誘導アテンション質量割当
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、境界アーティファクト、スタイライズの不安定化、構造の不整合といった共通の問題に対処する、マルチスタイル画像転送のためのトレーニング不要な拡散アテンションフレームワークMASTを提案する。
- MASTは4つの連結モジュール、すなわち「レイアウト保持クエリアンカリング」「ロジットレベルのアテンション質量割当」「鮮鋭度に配慮した温度スケーリング」「不一致に配慮したディテール注入」を用いて、コンテンツと複数のスタイル表現の相互作用の仕方を制御する。
- レイアウト保持クエリアンカリングは、コンテンツクエリを用いて意味構造をアンカーし、グローバルなレイアウト崩壊を防ぐことを目的としている。
- ロジットレベルのアテンション質量割当は、空間領域間で確率質量を決定論的に再配分し、複数スタイルの融合を行うと同時に境界アーティファクトを低減する。
- 本研究の実験結果では、MASTが、適用するスタイル数が増えても頑健性を高めつつ、構造の一貫性とテクスチャの忠実性を維持できることが示されている。




