PortraitDirector:階層的なディスエンタングルメント手法による、制御可能かつリアルタイムな顔の再現

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • PortraitDirectorは、顔の再現における「表現力」と「細かな制御性」のトレードオフを解消するために、階層的で合成的なアプローチを提案しています。
  • 本手法は顔の動きをSpatial Layer(全体の頭部姿勢と局所表情)とSemantic Layer(全体の感情)に分解し、その要素を再構成して表情豊かなモーション潜在表現を生成します。
  • 情報ボトルネックに基づくEmotion-Filtering Moduleが、局所表情成分から感情に関する手掛かりを取り除き、解きほぐし(ディスエンタングルメント)の品質向上に寄与します。
  • リアルタイム性のために、拡散蒸留(diffusion distillation)、因果注意(causal attention)、VAE加速などの最適化を組み込んでいます。
  • 512×512のストリーミング顔再現を20 FPS、エンドツーエンド約800 msレイテンシで、単一のNVIDIA 5090 GPU上で達成したと報告されています。