GenLCA: 実在動画から全身アバターを生成する3D拡散モデル
arXiv cs.CV / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- GenLCAは、拡散ベースの生成モデルであり、テキストおよび画像入力から、顔と全身のアニメーションの忠実度を高く保ちながら、写実的な全身3Dアバターの生成と編集を行います。
- この手法は、部分的に観測可能な2D動画データから全身3D拡散モデルを学習します。その際、再利用した事前学習済みのアバター再構成モデルを、アニメーション可能な3Dトークナイザとして用い、学習を実世界の数百万本の動画へとスケールします。
- 実世界の動画にはしばしば身体の一部しか写っていないため、GenLCAは可視性を考慮した拡散学習戦略を導入します。具体的には、無効なトークン領域を学習可能なトークンで置き換え、妥当な領域に対してのみ損失を適用することで、ぼやけや透明感といったアーティファクトを防ぎます。
- 得られた3Dトークンデータセットに対して、フローベースの拡散モデルを学習します。これは、基盤となる再構成モデルが持つ写実性とアニメーション可能性の性質を維持しつつ、ネイティブな3D学習を可能にすることを目的としています。
- 著者らは、GenLCAが多様で高忠実度なアバター生成および編集結果を生み出し、既存手法に対して大幅な性能向上を達成したと報告しています。



