PortraitDirector:階層的なディスエンタングルメント手法による、制御可能かつリアルタイムな顔の再現
arXiv cs.CV / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- PortraitDirectorは、顔の再現における「表現力」と「細かな制御性」のトレードオフを解消するために、階層的で合成的なアプローチを提案しています。
- 本手法は顔の動きをSpatial Layer(全体の頭部姿勢と局所表情)とSemantic Layer(全体の感情)に分解し、その要素を再構成して表情豊かなモーション潜在表現を生成します。
- 情報ボトルネックに基づくEmotion-Filtering Moduleが、局所表情成分から感情に関する手掛かりを取り除き、解きほぐし(ディスエンタングルメント)の品質向上に寄与します。
- リアルタイム性のために、拡散蒸留(diffusion distillation)、因果注意(causal attention)、VAE加速などの最適化を組み込んでいます。
- 512×512のストリーミング顔再現を20 FPS、エンドツーエンド約800 msレイテンシで、単一のNVIDIA 5090 GPU上で達成したと報告されています。



