4DEquine: 単眼動画からの4D馬再構成における運動と外観の分離
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 単眼動画からの4D馬再構成を、モーションと外観のサブ問題に分離することで堅牢性と効率性を向上させる枠組み4DEquineを紹介します。
- モーションについては、ビデオから滑らかで画素整列した姿勢と形状のシーケンスを回帰する、後処理最適化段階を備えた時空トランスフォーマを導入します。
- 外観については、単一の画像だけで高忠実度でアニメーション可能な3Dガウシアン・アバターを再構成できる、前向き伝播ネットワークを提案します。新しい合成データセットVarenPoserとVarenTexの支援を受けます。
- 合成データセットのみを用いて学習したにもかかわらず、4DEquineは実データセットAPT36KおよびAiMにおいて最先端の性能を達成し、幾何学と外観再構成の両方において、4DEquineと新しいデータセットの優越性を示しています。
- 包括的なアブレーション研究により、モーション再構成ネットワークと外観再構成ネットワークの有効性を検証しています。プロジェクトページ: https://luoxue-star.github.io/4DEquine_Project_Page/。
要旨:単眼動画からの馬類の4D再構成は、動物福祉のために重要です。従来の主流の4D動物再構成法は、動画全体にわたって動作と外観の共同最適化を必要とし、時間がかかるうえに観測が不完全だと影響を受けやすいです。本研究では、4D再構成問題を動的モーション再構成と静的外観再構成の2つのサブ問題に分離することにより、4DEquineと呼ばれる新しいフレームワークを提案します。モーションについては、ビデオから滑らかで画素整列した姿勢と形状のシーケンスを回帰する、後処理最適化段階を備えた時空トランスフォーマーを導入します。外観については、単一の画像だけで高忠実度でアニメーション可能な3Dガウシアン・アバターを再構成できる、前向き伝播ネットワークを設計します。学習を支援するために、VarenPoserという大規模合成モーションデータセットを作成しました。高品質な表面モーションと多様なカメラ軌道を特徴とします。さらに、多視点拡散を用いて現実的な多視点画像を含む合成外観データセットVarenTexを作成しました。合成データセットのみを用いて学習したにもかかわらず、4DEquineは実データセットAPT36KおよびAiMにおいて最先端の性能を達成し、幾何学と外観再構成の両方において、4DEquineと新しいデータセットの優越性を示しています。包括的なアブレーション研究により、モーション再構成ネットワークと外観再構成ネットワークの有効性を検証しています。プロジェクトページ: https://luoxue-star.github.io/4DEquine_Project_Page/。
