NCSTR:ビデオベースの人体姿勢推定のための、ノード中心の分離型スパatio-時間推論

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モーションブラー、遮蔽(オクルージョン)、および複雑なスパatio-時間ダイナミクスといった、フレーム間の一貫性をしばしば低下させるビデオベースの人体姿勢推定の課題に取り組む。
  • 視覚-時間速度に基づく関節埋め込みと、注意(アテンション)駆動の姿勢クエリエンコーダを用いる、ノード中心のフレームワークを提案し、見た目(appearance)と動き(motion)を意識したノード埋め込みを構築する。
  • 時間的な伝播と空間的な制約推論を、ローカルブランチとグローバルブランチを通じてそれぞれ別にモデル化するための、デュアルブランチ分離型スパatio-時間注意グラフを導入する。
  • 2つのブランチの出力を適応的に組み合わせて最終的な関節予測を生成する、ノード空間エキスパート・フュージョン(融合)モジュールを含む。
  • 3つの標準的なビデオ姿勢ベンチマークに関する実験では、最先端の性能が報告されており、姿勢精度の向上に対する明示的なノード中心推論の有効性を裏付けている。

要旨: 動画に基づく人体の姿勢推定は、モーションブラー、遮蔽、複雑な時空間ダイナミクスによって依然として困難です。既存の手法はしばしばヒートマップ、あるいは暗黙的な時空間特徴の集約に依存しており、その結果、関節トポロジ(関節の構造)を表現する能力が制限され、フレーム間の一貫性が弱まります。これらの問題に対処するため、私たちは正確な姿勢推定のために、視覚・時間的・構造的推論を明示的に統合する新しいノード中心(node-centric)フレームワークを提案します。まず、サブピクセルの関節手がかりとフレーム間の運動を融合して、見た目と動きに関する情報に敏感な表現を構築する、視覚・時間の速度ベースの関節埋め込みを設計します。次に、注意(attention)駆動の姿勢クエリ・エンコーダを導入します。このエンコーダは、関節ごとのヒートマップとフレームごとの特徴に対して注意を適用し、関節表現を姿勢を意識したノード空間へ写像することで、画像条件付きの関節対応ノード埋め込みを生成します。これらのノード埋め込みに基づいて、時間的伝播と空間的制約推論を、局所ブランチと大域ブランチという特化した2つのブランチでそれぞれ扱う、デュアルブランチの分離型時空間注意グラフを提案します。最後に、ノード空間エキスパートの融合モジュールを提案し、両ブランチの相補的な出力を適応的に融合させることで、局所的手がかりと大域的手がかりを統合し、最終的な関節予測を行います。広く用いられている3つの動画姿勢ベンチマークでの大規模な実験により、私たちの手法が最先端手法を上回ることが示されました。その結果は、明示的なノード中心推論の価値を裏付け、動画に基づく人体姿勢推定を発展させるための新しい観点を提供します。