要旨: 既存のフルボディ・ガウス・アバター手法は主にグローバルな再構成品質を最適化しますが、細かな顔の幾何形状や表情の詳細を保持できないことが多いです。この課題は、顔の表現能力が限られていることに起因し、高周波のポーズ依存的な変形をモデル化するのが難しくなるためです。そこで本研究では、F3G-Avatar というフルボディで顔に配慮したアバター合成手法を提案します。これは、マルチビューRGB動画と回帰されたポーズ/形状パラメータから、アニメーション可能な人間表現を再構成します。衣服付き Momentum Human Rig(MHR)テンプレートから出発し、前面/背面の位置マップをレンダリングして、2つの分岐アーキテクチャにより3Dガウスへとデコードします。具体的には、ポーズ依存の非剛体変形を捉えるボディ分岐と、頭部の幾何形状と見た目を洗練する顔に焦点を当てた変形分岐です。予測されたガウスを融合し、線形ブレンド・スキニング(LBS)でポーズ付けしたうえで、微分可能なガウス・スパッタリングによりレンダリングします。学習では、再構成目的と知覚的目的を組み合わせ、さらに近距離(クローズアップ)ビューのリアリズムを高めるために顔専用の敵対的損失を用います。実験により、強いレンダリング品質が示され、顔ビューの性能は AvatarReX データセットで PSNR/SSIM/LPIPS が 26.243/0.964/0.084 に達しました。アブレーションでは、MHRテンプレートと顔に焦点を当てた変形の寄与がさらに強調されます。F3G-Avatar は、現実的でアニメーション可能なフルボディ・アバター合成のための実用的で高品質なパイプラインを提供します。
F3G-Avatar:顔に着目した全身ガウス・アバター
arXiv cs.CV / 2026/4/14
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、従来の全身ガウス・アバター手法では見落とされがちな、微細な顔の形状と表情を保持することを目的とした、顔認識に基づく全身ガウス・アバター合成手法「F3G-Avatar」を提案する。
- F3G-Avatarは、多視点RGB動画に加えて回帰された姿勢・形状パラメータを用い、MHR(Momentum Human Rig)テンプレートと二つのブランチ構造(身体変形+顔に着目した変形)によって、アニメーション可能な3Dガウス表現を構築する。
- 本手法は、正面/背面の位置マップをレンダリングし、それらを3Dガウスへ復号して結果を融合したうえで、線形ブレンドスキニング(LBS)を適用し、微分可能なガウス・スプラッティングによってエンドツーエンド描画を学習する。
- 学習では、再構成損失と知覚損失の混合に加え、顔に特化した敵対的損失を用いることで、接近した顔の見えに対するリアリティを高める。
- AvatarReXでの実験により、顔の視点において強い性能が報告されている(PSNR/SSIM/LPIPS:26.243/0.964/0.084)。また、アブレーションにより、MHRテンプレートと顔に着目した変形ブランチの両方が重要であることが示される。
