要旨:現在の拡散ベースのメイク転写手法は、一般に市販のファンデーションモデル(例:CLIP)によってエンコードされたメイク情報を条件として使用し、生成過程で参照画像のメイクスタイルを保持します。効果的ではあるものの、これらの手法には主に二つの制約があります:(1)汎用タスク向けに事前学習されたファウンデーションモデルは、メイクスタイルを捉えるのが難しい。 (2)参照画像のメイク特徴は拡散デノイジングモデルへ全体として注入され、グローバルなメイク転写を実現する一方で、顔の領域認識メイク特徴(例:目、口など)を見落とし、領域特異的なメイク転写の局所的な制御を制限しています。これらの課題に対処するため、本研究では「顔領域を意識したメイク特徴」(FRAM)を提案します。FRAMは二つの段階から成り立っています:(1)メイクCLIPのファインチューニング;(2)アイデンティティおよび顔領域を意識したメイクの注入。メイクCLIPのファインチューニングについては、従来の市販CLIPを用いる手法とは異なり、GPT-3とテキスト駆動型の画像編集モデルを用いて注釈付きメイクスタイルデータを合成し、そのデータを用いて自己教師あり学習および画像と言語の対比学習を通じてメイクCLIPエンコーダを訓練します。アイデンティティおよび顔領域を意識したメイク注入については、段階1で編集された画像から前後のメイク画像ペアを構築し、それらを用いてソース画像のアイデンティティと参照画像のメイクを拡散デノイジングモデルへ注入してメイク転写を学習します。具体的には、学習可能なトークンを用いてメイクCLIPエンコーダを照会し、メイク注入のための顔領域を意識したメイク特徴を抽出します。これは、領域制御を可能にするためのアテンション損失を通じて学習されます。アイデンティティ注入については、ControlNet Unionを用いてソース画像とその3Dメッシュを同時にエンコードします。実験結果は、私たちの領域制御性の優位性とメイク転写性能の向上を検証しています。
顔領域対応のメイク特徴を用いた拡散モデルベースのメイク転送
arXiv cs.CV / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 現在の拡散ベースのメイク転送手法は汎用のファンデーションモデルに依存し、メイク特徴を全体的に適用するため、領域ごとの制御性と有効性が制限される。
- 本論文は Facial Region-Aware Makeup features(FRAM)を導入し、2段階からなる:メイク CLIP のファインチューニングとアイデンティティ/領域対応のメイク注入。
- 学習可能なトークンを用いてメイク CLIP エンコーダを照会し、顔領域を地域的に制御するためのアテンション損失で訓練する。
- アイデンティティ注入は、元画像とその3Dメッシュをエンコードする ControlNet Union により実装され、実験により領域制御性と転送性能の向上が示されている。



