骨格に制約を与えた空間グラフとモーション適応型マルチスケール時間モデリングによる効率的な3D人体姿勢推定

arXiv cs.CV / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単眼動画に対する効率的な3D人体姿勢推定フレームワークであるMASC-Poseを提案し、空間的・時間的な依存関係モデリングの両方の課題に取り組む。
  • 適応的マルチスケール時間モデリング(AMTM)モジュールを用いて、時間スケールごとに異なる運動ダイナミクスをモーションに適応する形で捉える。
  • 空間推論のために、骨格構造の制約を活用しつつ関節ごとの相互作用をモデル化する、Skeleton-constrained Adaptive GCN(SAGCN)を提案する。
  • Human3.6MおよびMPI-INF-3DHPでの実験により、本手法は固定的または密な注意(dense-attention)に重きを置く方式と比べて計算効率の高さを維持しながら精度を向上できることが示される。

Abstract

単眼動画からの正確な3D人体姿勢推定には、複雑な空間的および時間的依存関係を効果的にモデリングすることが必要です。しかし、既存の手法は、特に密な注意(dense attention)や固定されたモデリング方式のもとで、空間的および時間的依存関係をモデリングする際の効率性や適応性に課題を抱えることがしばしばあります。本研究では、効率的な3D人体姿勢推定のためのSkeleton-Constrained空間グラフを伴う、Motion-Adaptiveマルチスケール時間モデリングフレームワークであるMASC-Poseを提案します。具体的には、異なる時間スケールにおける不均一な運動ダイナミクスを適応的に捉えるためのAdaptive Multi-scale Temporal Modelling(AMTM)モジュールと、関節ごとの空間的相互作用のモデリングのためのSkeleton-constrained Adaptive GCN(SAGCN)を導入します。適応的な時間推論と効率的な空間集約を共同で可能にすることで、本手法は高い計算効率を保ちながら強力な精度を達成します。Human3.6MおよびMPI-INF-3DHPデータセットでの広範な実験により、本アプローチの有効性が示されます。