大規模マルチビューからの高品質3Dガウス・ヘッド再構成:HeadsUp

arXiv cs.CV / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、Large multi-cameraキャプチャから高品質な3Dガウス製ヘッドを再構成するためのスケーラブルなフィードフォワード手法「HeadsUp」を提案する。
  • HeadsUpは効率的なエンコーダ・デコーダ構成により、多数の入力ビューをコンパクトな潜在表現へ圧縮し、その潜在表現を中立ヘッドテンプレートにアンカーしたUVパラメータ化3Dガウス群へデコードする。
  • UV表現により、必要な3Dガウス数を入力画像の枚数や解像度から切り離せるため、多数の高解像度ビューでの学習が可能になる。
  • 10,000人超の被写体からなる社内データセットで学習・評価し、従来のマルチビュー・ヘッドデータセットより約1桁大きい規模で、テスト時最適化なしに新規アイデンティティへ汎化しつつ最先端の再構成品質を達成する。
  • アイデンティティ数・ビュー数・モデル容量にまたがるスケーリング挙動を分析し、生成した3Dアイデンティティの作成や、表情ブレンドシェイプによる3Dヘッドのアニメーションといった下流応用も示す。

要旨: 大規模なマルチカメラ環境から高品質な3Dガウスヘッドを再構成するための、スケーラブルなフィードフォワード手法「HeadsUp」を提案します。本手法は、入力視点をコンパクトな潜在表現へ圧縮する効率的なエンコーダ・デコーダアーキテクチャを用います。この潜在表現は、その後、中立的なヘッドテンプレートにアンカーされた、UVパラメータ化された一連の3Dガウスへデコードされます。このUV表現により、3Dガウスの数は、入力画像の枚数や解像度から切り離されます。これにより、多数の高解像度入力視点を用いた学習が可能になります。私たちは、10,000人を超える被験者を含む内部データセットでモデルの学習と評価を行いました。これは、既存のマルチビュー人間の頭部データセットに比べて1桁大きい規模です。HeadsUpは最先端の再構成品質を達成し、テスト時の最適化なしで新規アイデンティティへも汎化します。さらに、アイデンティティ、視点、モデル容量にわたるモデルのスケーリング挙動を徹底的に分析し、品質と計算量のトレードオフに関する実践的な知見を明らかにします。最後に、潜在空間の強みを示すため、2つの下流アプリケーションとして、(1) 新たな3Dアイデンティティの生成と、(2) 表情ブレンドシェイプで3Dヘッドをアニメーション化することを紹介します。