GenFusion：逐次的な正準空間の更新によるフィードフォワード型ヒューマンパフォーマンスキャプチャ

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単一のモノクロRGBビデオストリームから新規視点を合成するフィードフォワード型ヒューマンパフォーマンスキャプチャ手法であるGenFusionを提案する。
被験者の連続的な動きに合わせて、正準空間（canonical space）をフレームごとに逐次更新することで、未視の身体領域における観測の欠落に対処する。
正準空間は、時間的に蓄積された「コンテキストバンク」として機能し、現在のフレームで直接可視化されていない場合に外観情報を提供する。
レンダリングは確率的回帰として定式化することで、過去の観測（正準／コンテキスト）と現在の観測（ライブ変形）をより適切に整合させ、決定論的回帰よりも鮮明な結果を得る。
4D-Dress（in-domain）およびMVHumanNet（out-of-distribution）での実験により、既存の観測が存在しない領域においても、再構成品質の向上ともっともらしい合成が示される。

Abstract

我々は、単眼のRGBストリームからパフォーマーの新しい視点（novel views）を生成する、フィードフォワード型の人体性能キャプチャ手法を提案します。この設定における重要な課題は、特に未観測領域に対して十分な観測が得られないことです。被写体が時間とともに連続的に動くと仮定し、各入力フレームに応じて漸進的に更新される正準（canonical）空間を維持することで、より多くの身体部位が観測可能になるという事実を活用します。この正準空間は外観情報を時間を通じて蓄積し、現在のライブフレームで直接の観測が欠けている場合のコンテキストバンクとして機能します。ライブ状態の変形を尊重しつつ、このコンテキストを効果的に利用するために、レンダリング過程を確率的回帰として定式化します。これにより、過去の観測と現在の観測の間の衝突が解消され、決定論的回帰手法よりもシャープな再構成が得られます。さらに、過去の観測が存在しない領域においても、もっともらしい合成が可能になります。in-domain（4D-Dress）およびout-of-distribution（MVHumanNet）データセットでの実験により、本手法の有効性が示されます。