SocialMirror：単眼動画から意味的・幾何学的誘導により3D人の相互作用行動を再構成する

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

SocialMirrorは、単眼動画から3Dの人の相互作用行動を再構成するための拡散（diffusion）ベースのフレームワークであり、大きな相互オクルージョンを伴う難しい密接接触シーンを対象とする。
画像と言語（vision-language）から生成した相互作用記述による意味的誘導と、意味に基づくモーションインフィラーを組み合わせることで、オクルージョンされた身体を“幻視（hallucinate）”し、局所的な姿勢の曖昧さを解消する。
シーケンス（系列）レベルの時間的リファイナにより時間的整合性を向上させ、フレーム間で滑らかでジッタのない動きを生成する。
サンプリング時、SocialMirrorは幾何学的制約を課し、接触のもっともらしさや、相互に作用する人々間の空間関係が正しく保たれるようにする。
複数の相互作用ベンチマークでの実験により、未観測データセットや“in-the-wild”な動画への強い汎化を伴う、3Dインタラクティブメッシュ再構成における最先端性能が報告されており、コードは論文公開時にリリース予定である。

アブストラクト: 接近相互作用のシナリオにおいて人間の行動を正確に再構成することは、拡張現実における現実的な仮想インタラクションの実現、スポーツにおける精密なモーション解析、そして人-ロボット課題における自然な協調行動を可能にするために重要です。これらの文脈で信頼性の高い再構成ができることは、AI駆動のインタラクティブなアプリケーションの現実味と有効性を大きく高めます。しかし、接近相互作用のシナリオにおいて単眼動画から人間を再構成することは、深刻な相互遮蔽により依然として困難です。その結果、局所的なモーションの曖昧性が生じ、時間的な連続性が途切れ、空間的な関係に誤差が生じます。本論文では、これらの問題を効果的に解決するために、セマンティック情報と幾何学的手がかりを統合する拡散ベースのフレームワークである SocialMirror を提案します。具体的には、まず、ビジョン-言語モデルによって生成された高レベルの相互作用記述を活用し、セマンティックに導かれたモーションインフィラーを導入します。これにより、遮蔽された身体を“幻覚的に”補完し、局所的な姿勢の曖昧性を解消します。次に、スムーズでジッタのないモーションを強制するシーケンスレベルの時間的リファイナーを提案し、サンプリング中に幾何学的制約を組み込むことで、もっともらしい接触や空間関係が保証されるようにします。複数の相互作用ベンチマークでの評価により、SocialMirror はインタラクティブな人のメッシュ再構成において最先端の性能を達成し、未見のデータセットや現実の“in-the-wild”なシナリオに対して強い汎化性能を示すことが確認されました。コードは掲載後に公開します。