A2BFR：属性対応型ブラインド顔復元

arXiv cs.CV / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、高忠実度の復元とプロンプトで制御可能な生成を組み合わせた、ブラインド顔復元のための属性対応型フレームワークA2BFRを提案する。
拡散トランスフォーマ（Diffusion Transformer）を用い、統一された画像—テキストのクロスモーダル注意機構により、劣化した顔入力とテキストプロンプトの両方を条件として、ノイズ除去（denoising）過程を制御する。
属性対応学習を導入し、属性対応エンコーダから得た顔の属性埋め込みにより、ノイズ除去潜在（denoising latents）を監督することで意味的な事前知識（semantic priors）を改善する。
制御性を強化するため、新たにキュレーションしたAttrFace-90Kデータセットに基づく属性の対（pairwise）変化に対する意味的デュアル・トレーニングを追加し、属性の識別性を促しつつ復元の忠実度を維持する。
実験では、復元品質の向上（LPIPSの低減）と、属性精度の大幅な向上に加え、厳しい劣化下でもきめ細かな指示追従が実現され、最先端の結果が報告されている。

要旨: ブラインド顔復元（BFR）は、劣化した入力から高品質な顔画像を回復することを目的としますが、その本質的に不適切（ill-posed）な性質により、曖昧で制御不能な解が生じます。近年の拡散ベースのBFR手法は知覚品質を改善しますが、依然として制御不能です。一方で、テキストに導かれた顔編集は、信頼できる復元を伴わずに属性の操作を可能にします。これらの課題に対処するために、本研究では、A $^2$ BFRを提案します。A $^2$ BFRは、属性を意識したブラインド顔復元フレームワークであり、高忠実度な再構成とプロンプトで制御可能な生成を統一します。A $^2$ BFRは、統一された画像-テキストのクロスモーダル注意を備えたDiffusion Transformerのバックボーンに基づき、劣化入力とテキストプロンプトの両方により、消去（denoising）の軌道を共同で条件付けします。セマンティックな事前知識を注入するために、属性を意識した学習を導入します。これは、属性を意識したエンコーダによって抽出された顔の属性埋め込みを用いて、復元の潜在表現（denoising latents）を教師付けするものです。さらにプロンプト制御性を高めるために、セマンティックなデュアル・トレーニングを導入します。これは、新たにキュレーションしたAttrFace-90Kデータセットにおける属性の対（pairwise）変化を活用し、忠実度を維持しつつ属性の識別性を高めるように強制します。大規模な実験により、A $^2$ BFRが、復元の忠実度と指示への適合の両方において最先端の性能を達成することが示されます。拡散ベースのBFRのベースラインを、LPIPSで-0.0467、属性精度で+52.58%上回り、さらに重度の劣化下でもきめ細かな、プロンプトで制御可能な復元を可能にします。