ReconPhys:単一動画から見た目と物理的属性を再構成する

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ReconPhysは、単眼の単一動画から非剛体物体の見た目(appearance)と3D形状(3D Gaussian Splatting)だけでなく、物理的属性も同時に推定するフィードフォワード手法を提案しています。
  • 従来の微分レンダリングに基づく手法で必要だった高コストな調整や手作業のアノテーションを、自己教師ありの学習戦略で物理ラベルなしに置き換える点が特徴です。
  • 実験では合成の大規模データセット上で、将来予測のPSNRが21.64(最先端最適化基線13.27)に改善し、Chamfer Distanceも0.349から0.004へ大幅に低減したと報告されています。
  • 推論が1秒未満で完了し、既存手法で必要だった数時間規模の最適化を大きく短縮できるため、ロボティクスやグラフィックスでのシミュレーション用アセット生成を迅速化できるとされています。

Abstract

非剛体オブジェクトを物理的にもっともらしい形で復元することは、依然として大きな課題です。既存の手法は、シーンごとの最適化のために微分可能レンダリングを活用し、幾何とダイナミクスを回復できますが、高価なチューニングや手動の注釈が必要となるため、実用性や汎化性が制限されます。これに対処するために、単眼モノクロ動画1本から物理属性推定と3Dガウススプラッティングによる復元を同時に学習する、最初のフィードフォワード型フレームワークであるReconPhysを提案します。本手法は自己教師あり戦略によって学習されるデュアルブランチ構成を用い、真の物理ラベルの必要をなくします。動画シーケンスを与えると、ReconPhysは幾何、外観、そして物理属性を同時に推論します。大規模な合成データセットでの実験では、優れた性能が示されています。提案手法は、最先端の最適化ベースラインと比較して、将来予測においてPSNRを13.27から21.64へ向上させる一方で、Chamfer Distanceを0.349から0.004へと低減します。重要な点として、ReconPhysは既存手法で必要な数時間に対して1秒未満で推論でき、ロボティクスやグラフィックス向けにシミュレーション可能なアセットを迅速に生成することを可能にします。