AI Navigate

顔表情合成のためのGANの一般化性能向上

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • RegGANは、局所受容野を持つ回帰層とリッジ回帰損失を導入して表現の細部を学習し、対向訓練されたリファインメントネットワークと組み合わせてリアリズムを高めます。
  • 本モデルは、訓練データ分布を超える一般化を実現する中間表現を学習することにより、顔表情合成の一般化を改善することを目指します。
  • RegGANはCFEEデータセットで訓練され、CFEEおよびセレブ写真、肖像、彫像、アバターレンダリングを含む分布外画像にも対して評価されました。
  • 評価にはECS、FSS、QualiCLIP、FIDを用い、RegGANはECS・FID・QualiCLIPで6つの最先端モデルを上回り、FSSで2位にランクしました。
  • 人間による評価では、RegGANは最高競合モデルと比較して、表現品質が約25%、アイデンティティ保持が約26%、リアリズムが約30%高いことが示されました。

概要:顔表情合成は、アイデンティティを保ちながら現実的な顔表情を生成することを目的としています。既存の条件付き生成対向ネットワーク(GAN)は、画像間の翻訳で優れた結果を達成しますが、テスト画像が訓練データセットと異なる場合、性能が低下することがよくあります。我々はRegGAN(Regression GAN)を提案します。RegGANは、訓練データ分布を超えた一般化を改善するための中間表現を学習するモデルです。RegGANは2つのコンポーネントから成り立ちます。局所受容野を持つ回帰層は、リッジ回帰損失を通じて再構成誤差を最小化することにより表情のディテールを学習し、改良ネットワークは生成画像の現実感を高めるために敵対的に訓練されます。私たちはCFEEデータセット上でRegGANを訓練し、CFEE上およびセレブ写真、肖像、像、アバターレンダリングなどを含む分布外の挑戦的な画像に対してその一般化性能を評価します。評価には、4つの広く用いられる指標を採用します。表現品質のためのExpression Classification Score(ECS)、アイデンティティ保持のためのFace Similarity Score(FSS)、知覚的現実感のためのQualiCLIP、表現品質と現実感の両方を評価するFréchet Inception Distance(FID)です。RegGANはECS、FID、QualiCLIPの6つの最先端モデルを上回り、FSSでは2位にランクします。人間の評価は、RegGANが最良の競合モデルを表現品質で25%、アイデンティティ保持で26%、現実感で30%上回ることを示しています。