GenFusion:逐次的な正準空間の更新によるフィードフォワード型ヒューマンパフォーマンスキャプチャ
arXiv cs.CV / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、単一のモノクロRGBビデオストリームから新規視点を合成するフィードフォワード型ヒューマンパフォーマンスキャプチャ手法であるGenFusionを提案する。
- 被験者の連続的な動きに合わせて、正準空間(canonical space)をフレームごとに逐次更新することで、未視の身体領域における観測の欠落に対処する。
- 正準空間は、時間的に蓄積された「コンテキストバンク」として機能し、現在のフレームで直接可視化されていない場合に外観情報を提供する。
- レンダリングは確率的回帰として定式化することで、過去の観測(正準/コンテキスト)と現在の観測(ライブ変形)をより適切に整合させ、決定論的回帰よりも鮮明な結果を得る。
- 4D-Dress(in-domain)およびMVHumanNet(out-of-distribution)での実験により、既存の観測が存在しない領域においても、再構成品質の向上ともっともらしい合成が示される。




