姿勢(ポーズ)対応拡散による3D生成

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Pose-Aware Diffusion(PAD)は、canonical-then-rotate 型のパイプラインに内在する曖昧さを解消しつつ、特定のポーズに整合した3Dオブジェクト生成を目的とした新しいエンドツーエンドの拡散フレームワークである。
  • PADは、観測空間上で直接3D幾何を生成し、単眼深度を部分点群へとアンプロジェクトして、それを明示的な3D幾何アンカーとして注入することで、より厳密な空間的スーパービジョンを与える。
  • このネイティブ生成によりポーズの曖昧さが本質的に解消され、高品質なポーズ整合アセットが得られる。
  • 実験では、PADが幾何アラインメントと画像から3Dへの対応(image-to-3D correspondence)の両面で既存の最先端手法より優れていることが示されている。
  • PADは、独立に生成したオブジェクト同士を単純にユニオンすることで、構成的な3Dシーン復元にも拡張でき、複数要素にわたって正確な空間レイアウトを保てることが示唆されている。