Face Anything：任意の画像シーケンスからの4D顔再構成

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

共有:

要点

本論文は、表情の非剛体変形や視点変化が同時に起こることによる幾何・対応付けの曖昧さを解決しつつ、任意の画像シーケンスから高精度な4D（時間変化する）顔再構成とトラッキングを行う統一手法を提案しています。
「正規化されたカノニカル顔座標を、各ピクセルに共通のカノニカル顔空間として割り当てる」カノニカル顔ポイント予測により、時間的に一貫した形状と対応関係の精度を高めます。
トランスフォーマ系のフィードフォワードモデルが深度とカノニカル顔座標を同時に予測し、1つの構成で高密度3D形状・安定した再構成・頑健な顔ポイント追跡を実現します。
カノニカル空間へ非剛体にワープしたマルチビュー幾何データで学習し、対応誤差を約3倍低減、深度精度を16%向上し、さらに従来の動的再構成手法より高速な推論も示しています。
著者らは、カノニカル顔ポイント予測が、統一的な4D再構成の有効な基盤になると結論づけています。

要旨: 画像系列からの動的な人間の顔の正確な再構成と追跡は困難です。非剛体の変形、表情の変化、視点の変動が同時に起こり、幾何学と対応付けの推定に大きな曖昧さが生じるためです。私たちは、正規化された顔座標を共有された正準（カノニカル）空間において各ピクセルに割り当てる表現に基づく、正準顔点予測（canonical facial point prediction）を核とした、高忠実度の4D顔再構成のための統一手法を提案します。この定式化により、密な追跡と動的再構成を、正準再構成の問題へと変換できます。これにより、単一のフィードフォワードモデルの中で、時間的に一貫した幾何学と信頼性の高い対応付けを実現します。深度と正準座標を同時に予測することで、本手法は単一のアーキテクチャ内で、正確な深度推定、時間的に安定した再構成、密な3D幾何学、そして頑健な顔点追跡を可能にします。本定式化は、深度と正準の顔座標を共同で予測するトランスフォーマー系モデルを用いて実装します。さらに、非剛体に正準空間へワープする多視点の幾何学データを用いて学習します。画像および動画ベンチマークにおける大規模な実験により、再構成と追跡の両タスクで最先端の性能が示されます。従来の動的再構成手法と比べて、対応付け誤差を約3 $imes$ 低減し、推論も高速化します。また、深度精度を16%向上させます。これらの結果は、統一的なフィードフォワード4D顔再構成のための有効な基盤として、正準顔点予測が機能することを示しています。