Any3DAvatar: 単一ポートレート画像から高速かつ高品質なフルヘッド3Dアバターを復元

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長年の「品質と速度のトレードオフ」を対象とする、単一ポートレートからフル3Dヘッドを3Dガウシアンとして再構成する手法Any3DAvatarを提案する。
従来の単一画像によるフルヘッド再構成手法と比べて、幾何学とテクスチャの高い忠実度を維持しつつ、サブ秒（最速設定で1秒未満）の性能を主張している。
著者らは、アイデンティティの多様性と高密度な多視点の教師信号を組み合わせることで、カバレッジ、フルヘッドの幾何学、複雑な外観（アクセサリを含む）を改善するための統一学習データスイートAnyHeadを導入する。
提案手法では、構造化された3DガウシアンのスキャフォールドにPlücker対応の要素を用い、非構造のノイズサンプリングではなく、1ステップの条件付きデノージング（単一のフォワードパス）を採用することで、詳細な再構成品質の保持を目指す。
さらに、潜在トークンに対する視点条件付きの外観教師信号を追加し、新規視点でのテクスチャの詳細を向上させながら推論コストを増やさない。

要旨: 単一のポートレートから完全な3D頭部を復元することは依然として難しい。既存手法が直面しているのは、鋭い品質と速度のトレードオフだからである。高忠実度のパイプラインはしばしば複数段階の処理と被写体ごとの最適化に依存する一方で、高速のフィードフォワードモデルは完全なジオメトリや細かな外観のディテールの再現に苦戦する。そこでこのギャップを埋めるために、我々はAny3DAvatarを提案する。Any3DAvatarは、単一画像から3Dガウス頭部アバターを高速かつ高品質に生成する手法であり、最速設定では1秒未満で全頭部を復元しつつ、高忠実度のジオメトリとテクスチャを保持する。第一に、アイデンティティの多様性、密な多視点の教師信号、現実的なアクセサリを統合した統一データスイートであるAnyHeadを構築し、既存の頭部データにおける主な欠落—カバレッジ、全頭部のジオメトリ、複雑な外観—を補う。第二に、非構造のノイズをサンプリングするのではなく、Pl"uckerに配慮した構造化3Dガウスの足場（スキャフォールド）から初期化し、ワンステップの条件付きデノイジングを行う。これにより、全頭部の復元を単一のフォワードパスに落とし込みつつ、高い忠実度を維持する。第三に、3Dガウスの復元に加えて、同一の潜在トークンに対して視点条件付きの補助的な外観教師信号を導入し、追加の推論コストなしで新規視点のテクスチャの詳細を改善する。実験の結果、Any3DAvatarは、レンダリング忠実度の点で従来の単一画像による全頭部復元手法を上回り、かつ大幅に高速であることが示された。

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

Dev.to

バイオテック主導の活況—中国企業8社が香港の好調な株式市場に殺到

SCMP Tech

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

Dev.to

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

Dev.to

Any3DAvatar: 単一ポートレート画像から高速かつ高品質なフルヘッド3Dアバターを復元

要点

関連記事

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

バイオテック主導の活況—中国企業8社が香港の好調な株式市場に殺到

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer