SIE3D:意味埋め込みと知覚的表情損失による単一画像からの表情豊かな3Dアバター生成

arXiv cs.CV / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、入力画像1枚と表情を記述するテキストを組み合わせて、高品質な表情豊かな3Dヘッド・アバターを生成するSIE3Dを提案している。
  • SIE3Dは、新しい条件付け方式により、画像から得た本人性(identity)特徴とテキストからの意味埋め込みを統合し、表情を細かく直感的に制御できるようにしている。
  • 生成された表情がテキストと一致するように、事前学習済みの表情分類器を用いた知覚的表情損失(perceptual expression loss)を導入している。
  • 実験では、コンシューマー向けの単一GPU上で、SIE3Dが制御性と現実味の両面で改善し、本人性の保持と表情の忠実度の面で競合手法を上回ることを示している。

Abstract

単一画像から高精細な3D頭部アバターを生成することは難しい。というのも、現行手法では、テキストによって表情を微細かつ直感的に制御するための細かな制御が欠けているためである。本論文では、単一画像と記述的テキストから、表情豊かな3Dアバターを生成するフレームワークであるSIE3Dを提案する。SIE3Dは、新しい条件付け方式を通じて、画像からのアイデンティティ特徴とテキストからの意味埋め込みを融合し、詳細な制御を可能にする。生成された表情がテキストと正確に一致することを保証するため、革新的な知覚表情損失関数を導入する。この損失は、事前学習済みの表情分類器を用いて生成過程を正則化し、表情の正確さを保証する。大規模な実験の結果、SIE3Dは、単一の一般的なコンシューマ向けGPU上で、アイデンティティ保持と表情の忠実性において競合手法を上回り、制御性とリアリティを大幅に改善することが示された。プロジェクトページ: https://huang-zhiqi.github.io/SIE3D/