LatRef-Diff:潜在および参照ガイド付き拡散による表情属性編集とスタイル操作

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LatRef-Diffは、仮想アバターや写真編集などの用途を想定し、顔の属性編集とスタイル操作をより正確に行うことを目的とした新しい拡散ベースのフレームワークである。
  • 従来のセマンティック方向の代わりに、潜在ガイダンスと参照ガイダンスで生成する「スタイルコード」を導入し、それを画像へ統合するスタイル・モジュレーション機構を設計している。
  • スタイル・モジュレーション機構は、学習可能ベクトル、クロスアテンション、階層的設計を用いることで、精度と画像品質の向上を図り、ランダムおよびユーザー指定のスタイル変更の両方に対応する。
  • ペア画像(編集前/編集後)を必要とせず学習を安定化するために、目標属性をまずおおまかに除去し、その後スタイル・モジュレーションで復元するフォワード・バックワード整合性学習戦略を提案している。
  • CelebA-HQでの実験により、定性・定量の両面で最先端性能を達成し、アブレーション研究で主要設計の有効性も確認されている。

概要: 顔の属性編集やスタイル操作は、バーチャルアバターや写真編集といったアプリケーションにおいて重要です。しかし、顔の構造の複雑さや属性間の強い相関により、関係のない特徴を変えずに顔の属性を正確に制御することは困難です。条件付きGANは進展を見せているものの、精度の問題や学習の不安定さによって制約があります。拡散モデルは有望ではあるものの、意味方向の表現力が限られているため、スタイル操作に課題があります。本論文では、これらの限界に対処する新しい拡散ベースの枠組みであるLatRef-Diffを提案します。拡散モデルにおける従来の意味方向をスタイルコードに置き換え、それを生成するための2つの方法(潜在および参照ガイダンス)を提案します。これらのスタイルコードに基づき、ターゲット画像へ統合するスタイル・モジュレーション・モジュールを設計し、ランダムおよびカスタマイズされたスタイル操作の両方を可能にします。このモジュールには、学習可能なベクトル、クロスアテンション機構、階層的な設計が組み込まれており、精度と画像品質の向上に寄与します。さらに、(編集前後などの)ペア画像を必要とすることなく学習の安定性を高めるために、順方向・逆方向整合性の学習戦略を提案します。この戦略ではまず、画像固有の意味方向を用いて目標属性を概ね取り除き、その後、知覚損失および分類損失により導かれたスタイル・モジュレーションによってそれを復元します。CelebA-HQに対する大規模な実験により、LatRef-Diffが定性的評価および定量的評価の両方において先行手法を上回る最先端の性能を達成することを示します。アブレーション研究により、提案モデルの設計上の選択の有効性が検証されます。