SnapPose3D:拡散モデルによる単一フレーム2Dから3Dへの人の姿勢推定

arXiv cs.CV / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • SnapPose3Dは、2Dから3Dへの人体姿勢推定における奥行きの曖昧さと関節の不確実性という課題に対し、単一の推定ではなく複数の姿勢仮説を生成することで対処します。
  • この手法は、視覚コンテキストと2D姿勢特徴の両方に条件付けられた3D姿勢を拡散モデルでノイズ除去し、サンプリングした複数仮説を集約して最終姿勢を得ます。
  • 多くの先行研究が曖昧さ解消のために時間系列入力を用いるのに対し、SnapPose3Dは単一フレームで動作し、トラッキングを不要にして計算量やデータ収集の負担を抑えます。
  • 学習は決定論的に行いながら、推論時には確率的な多仮説サンプリング(単位ガウスからのランダムサンプリング)を行うことで精度を高めています。
  • 全体として、この論文は拡散モデルが姿勢リフティングの曖昧さを効果的に扱い、非連続入力でも実用的な効率を維持できることを示しています。

要旨: 文献で提案されている2D-to-3Dリフティング手法によって正確な人間の姿勢予測を得る際の主要な障害は、深度の曖昧さと関節の不確実性の2つである。とりわけ、これらの問題は、複数の3D位置に対応付け可能な2D関節位置によって引き起こされ、結果として複数の最終的な姿勢が生じ得る。そこで本研究では、拡散ベースの生成モデルの能力を活用して複数の仮説を予測し、それらを最終的な正確な姿勢へ集約することを提案する。以上を踏まえ、視覚的コンテキストと2D姿勢特徴の両方に条件付けて3D姿勢をデノイズする、決定論的に学習されたポーズ・リフティングフレームワークであるSnapPose3Dを導入する。SnapPose3Dは推論時に確率的アプローチを採用し、単位ガウス分布からのランダムサンプリングによって複数の仮説を生成する。姿勢の曖昧さに対処する多くの先行手法が時間系列を処理することで対応しているのに対し、SnapPose3Dは入力として単一フレームを用いる。これにより、追跡を回避でき、計算コスト、データ取得の複雑性、さらにオンラインのリアルタイム適用が必要となることを抑えられる。3D人間姿勢推定タスクのためのよく知られたベンチマークに対してSnapPose3Dを広範に評価し、正確な仮説の生成と集約が可能であり、それが先端(state-of-the-art)の結果につながることを示す。