より良いリグを、より大きいネットワークを：Gaussian Avatarのためのボディモデル・アブレーション

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、3D Gaussianアバターの再構成改善は、学習パイプラインの複雑さを単に増やすことよりも、より良いボディ・リグによって主に牽引されると主張している。
SMPLをMomentum Human Rig（MHR）に置き換え、SAM-3D-Bodyを用いて推定し、さらに学習済みの変形を用いない最小限のパイプラインとすることで、PeopleSnapshotおよびZJU-MoCapにおいて最高のPSNRが得られ、加えてLPIPS/SSIMも競合レベル、またはそれ以上であると報告されている。
制御されたアブレーションにより、MHRとSMPL-Xの間でポーズとメッシュを入れ替え、同一の学習条件のもとで、ポーズ推定の品質とボディモデルの表現能力を切り分けている。
結果は、ボディモデルの表現力が主要なボトルネックであり、メッシュの表現能力とポーズ推定の品質の両方が、パイプライン全体にわたる性能向上に対して有意に寄与していることを示している。

要旨: SMPL に基づいて構築された近年の 3D ガウス・スプラッティング手法は、全体の学習アーキテクチャの複雑さを継続的に増しながら、目覚ましい視覚的忠実性を達成してきました。本研究では、その複雑さの多くが不要であることを示します。すなわち、SAM-3D-Body により推定される Momentum Human Rig (MHR) に SMPL を置き換えることで、学習された変形や姿勢依存の補正を一切用いない最小限のパイプラインが、PeopleSnapshot および ZJU-MoCap において、これまでに報告された最高の PSNR を達成し、かつ LPIPS と SSIM でも競争力、あるいはそれ以上の性能を示します。姿勢推定の品質をボディモデルの表現能力から切り離すために、2 つの制御されたアブレーション（除去実験）を行います。具体的には、SAM-3D-Body のメッシュを SMPL-X に変換すること、そして元データセットの SMPL のポーズを MHR に変換すること（いずれも同一条件下で再学習）です。これらのアブレーションにより、アバター再構成における主要なボトルネックはボディモデルの表現力であり、メッシュの表現能力と姿勢推定の品質の両方が、全パイプラインの向上に対して意味のある寄与をしていることが確認されます。