登録不要の学習可能マルチビューによる高密度セマンティック対応付けでの顔キャプチャ

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、登録済みの学習データを必要としない「MOCHI」というマルチビュー3D顔予測フレームワークを提案しており、高密度なセマンティック対応付けを学習できます。
MOCHIは、擬似線形の逆運動学（inverse kinematics）ソルバにより位相（トポロジー）の一貫性を制約することで、手作業による煩雑な登録への依存を排除しつつ、セマンティック整列は合成データだけで訓練した2Dランドマーク予測器の密なキーポイントで導きます。
著者らは、通常の点対面（point-to-surface）距離ベースの損失が、登録不要の設定では学習不安定性や視覚的アーティファクトを引き起こしうることを示し、より滑らかな勾配と再構成品質の向上のために pointmap 損失とnormalベース損失を提案しています。
さらに、数十回程度のイテレーションでネットワーク重みを更新するテスト時最適化により、フィードフォワードのみの手法よりも精度と見た目の品質を高めます。
MOCHIは、従来の労力の大きい登録パイプラインよりも再構成精度と視覚品質の両面で優れることを報告しており、コードとモデルを公開しています。