単一画像からの人間の相互作用を意識した3D再構成

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存の単一個体向け手法では重なりが生じること、遮蔽された幾何が欠落すること、そして相互作用が歪むことが問題となる複数人シーンに着目し、単一画像のテクスチャ付き3D人体再構成における重要なギャップを解決することを目的とする。
  • グループ全体の文脈と個体レベルの詳細を、遠近法に起因する幾何学的歪みを抑えるための正準(canonical)な正射影変換を用いて同時にモデル化する手法HUG3Dを提案する。
  • HUG-MVDの拡散成分は、協調的なグループ/個体モデリングによって遮蔽と近接性を解消しつつ、完全なマルチビュー法線と画像を生成する。
  • HUG-GRのジオメトリ(幾何)モジュールは、物理ベースの相互作用の事前知識を用いた最適化により3D構造を洗練し、物理的にもっともらしい性質を保証し、人と人の接触を正確に表現する。
  • 実験の結果、HUG3Dは従来の単一人・複数人アプローチを大幅に上回り、1枚の画像から物理的にもっともらしく、高精細な再構成を得られることが報告されている。

要旨: 単一画像からテクスチャ付き3D人間モデルを再構成することは、AR/VRおよびデジタルヒューマンのための基盤である。しかし、既存手法の多くは単一人物に主に焦点を当てているため、多人数シーンでは失敗する。具体的には、個別の再構成を素朴に合成すると、不自然な重なり、遮蔽領域における幾何の欠落、相互作用の歪みといったアーティファクトが生じる。これらの制約は、グループレベルの文脈と相互作用の事前知識(prior)を取り込むアプローチの必要性を示している。我々は、グループレベル情報とインスタンスレベル情報の両方を明示的にモデル化する、全体論的(holistic)手法を提案する。視点に起因する幾何学的歪みを軽減するために、まず入力を正準(canonical)な正射影空間へと変換する。主要構成要素であるHuman Group-Instance Multi-View Diffusion(HUG-MVD)は、その後、人とグループの文脈を同時にモデル化することで、遮蔽と近接による問題を解決し、完全なマルチビュー法線と画像を生成する。続いて、Human Group-Instance Geometric Reconstruction(HUG-GR)モジュールは、物理ベースの明示的な相互作用の事前知識を活用して幾何を最適化し、物理的な妥当性を強制しつつ、人間同士の接触を正確にモデル化する。最後に、マルチビュー画像を高忠実度のテクスチャへと融合する。これらの構成要素が組み合わさって、完全な枠組みであるHUG3Dを形成する。大規模な実験により、HUG3Dは単一人物および既存の多人数手法のいずれも大幅に上回り、単一画像から相互作用する人々を、物理的に妥当で高忠実度な3D再構成として生成できることを示す。プロジェクトページ: https://jongheean11.github.io/HUG3D_project