PerformRecast: ポートレート動画編集のための表情と頭部ポーズの分離

arXiv cs.CV / 2026/3/23

💬 オピニオンTools & Practical UsageModels & Research

要点

  • PerformRecastは、3D Morphable Face Model(3DMM)を用いて顔の表情と頭部ポーズを分離する、表情のみを対象としたポートレート動画編集アプローチを提案します。
  • 本手法は、3DMMに合わせてキーポイントの変換を改善し、アイデンティティと頭部の動きを保持しつつ、表情をより細かく制御できるようにします。
  • 顔領域と非顔領域を分離して境界のずれを減らし、領域別の監督を提供する教師モデルを用いることで、結果の質と安定性を高めます。
  • 広範な実験により、入力動画に対する忠実度が高く、制御性も向上し、既存手法と比較して効率性が改善されることが示され、コード・データ・学習済みモデルがオンラインで公開されています。

要約: 本論文は、駆動動画に基づく表情のみの肖像ビデオのパフォーマンス編集の課題を主に検討しており、これがアニメーションや映画産業において極めて重要な役割を果たします。多くの既存研究は主に肖像アニメーションに焦点を当てており、駆動動画からの表情の動きに合わせて静止肖像画像をアニメーション化することを目的としています。その結果、顔の表情と頭部の姿勢回転を分離することは依然として難しく、結果として表情を独立して編集する能力に欠けています。本論文では、表情のみのビデオ編集手法PerformRecastを提案します。私たちの手法の鍵となる洞察は、3D Morphable Face Model(3DMM)の特性から得られます。3DMMは3D顔メッシュの顔アイデンティティ、表情、および頭部姿勢を別々のパラメータでモデル化します。したがって、従来法のキーポイント変換式を改善し、3DMMモデルとより整合させることで、より良い分離を実現し、ユーザーに対してより細かな制御を提供します。さらに、生成結果における顔の境界周辺のずれを避けるため、入力肖像画像の顔領域と非顔領域を分離し、それぞれに別個の監督を提供する教師モデルを事前に訓練します。広範な実験により、本手法は駆動動画により忠実な高品質な結果を生み出すことを示し、従来法を制御性と効率性の両方の点で上回ります。我々のコード、データ、および訓練済みモデルは https://youku-aigc.github.io/PerformRecast にて利用可能です。