HAM:拡散モデルにおける異種アテンション調調整による、トレーニング不要のスタイル転送アプローチ
arXiv cs.CV / 2026/3/26
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、スタイルとコンテンツの同一性のトレードオフを解決することを目的とした、画像/テキストにより導くスタイル参照転送のための学習不要(training-free)拡散モデル手法であるHAM(Heterogeneous Attention Modulation)を提案する。
- まず拡散過程の潜在ノイズを設定するためのスタイルノイズ初期化戦略を導入し、その後HAMにより、ユーザのコンテンツ同一性をより適切に保持できるように異なるアテンション機構を調調整する。
- HAMは2つの構成要素—Global Attention Regulation(GAR)とLocal Attention Transplantation(LAT)—を含み、グローバルなスタイル適合とローカルな細部の保持のバランスを取ることを意図している。
- 実験(定性的および定量的)では、複数の指標においてスタイル転送課題全般で最先端の結果が得られたと報告されている。
- 全体として、本研究は、追加のモデル学習を行わずとも、推論時に注意(アテンション)を慎重に設計して調調整することで同一性の保持を改善できることを示唆している。