Any3DAvatar: 単一ポートレート画像から高速かつ高品質なフルヘッド3Dアバターを復元

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長年の「品質と速度のトレードオフ」を対象とする、単一ポートレートからフル3Dヘッドを3Dガウシアンとして再構成する手法Any3DAvatarを提案する。
  • 従来の単一画像によるフルヘッド再構成手法と比べて、幾何学とテクスチャの高い忠実度を維持しつつ、サブ秒(最速設定で1秒未満)の性能を主張している。
  • 著者らは、アイデンティティの多様性と高密度な多視点の教師信号を組み合わせることで、カバレッジ、フルヘッドの幾何学、複雑な外観(アクセサリを含む)を改善するための統一学習データスイートAnyHeadを導入する。
  • 提案手法では、構造化された3DガウシアンのスキャフォールドにPlücker対応の要素を用い、非構造のノイズサンプリングではなく、1ステップの条件付きデノージング(単一のフォワードパス)を採用することで、詳細な再構成品質の保持を目指す。
  • さらに、潜在トークンに対する視点条件付きの外観教師信号を追加し、新規視点でのテクスチャの詳細を向上させながら推論コストを増やさない。

要旨: 単一のポートレートから完全な3D頭部を復元することは依然として難しい。既存手法が直面しているのは、鋭い品質と速度のトレードオフだからである。高忠実度のパイプラインはしばしば複数段階の処理と被写体ごとの最適化に依存する一方で、高速のフィードフォワードモデルは完全なジオメトリや細かな外観のディテールの再現に苦戦する。そこでこのギャップを埋めるために、我々はAny3DAvatarを提案する。Any3DAvatarは、単一画像から3Dガウス頭部アバターを高速かつ高品質に生成する手法であり、最速設定では1秒未満で全頭部を復元しつつ、高忠実度のジオメトリとテクスチャを保持する。第一に、アイデンティティの多様性、密な多視点の教師信号、現実的なアクセサリを統合した統一データスイートであるAnyHeadを構築し、既存の頭部データにおける主な欠落—カバレッジ、全頭部のジオメトリ、複雑な外観—を補う。第二に、非構造のノイズをサンプリングするのではなく、Pl"uckerに配慮した構造化3Dガウスの足場(スキャフォールド)から初期化し、ワンステップの条件付きデノイジングを行う。これにより、全頭部の復元を単一のフォワードパスに落とし込みつつ、高い忠実度を維持する。第三に、3Dガウスの復元に加えて、同一の潜在トークンに対して視点条件付きの補助的な外観教師信号を導入し、追加の推論コストなしで新規視点のテクスチャの詳細を改善する。実験の結果、Any3DAvatarは、レンダリング忠実度の点で従来の単一画像による全頭部復元手法を上回り、かつ大幅に高速であることが示された。