概要:最先端の全身姿勢推定器は多くの場合、厳しいシーンで解剖学的に不自然な予測を行うなど、堅牢性に欠ける。この失敗は視覚的文脈から学習された偽の相関に起因すると考えられ、私たちはこれを構造的因果モデル(SCM)で形式化する。SCMは視覚的文脈を交絡因子として特定し、因果的でないバックドアパスを作り出し、モデルの推論を汚染している。私たちは因果介入グラフポーズ(CIGPose)フレームワークを導入し、視覚的証拠と姿勢の間の真の因果効果を近似することでこの問題に対処する。CIGPoseの核は新しい因果介入モジュールであり、まず予測の不確実性を通じて交絡されたキーポイント表現を特定し、それを学習された文脈に依存しない正準埋め込みに置き換える。これらの交絡を除去した埋め込みは、局所的およびグローバルな意味レベルで人間の骨格を推論する階層的グラフニューラルネットワークによって処理され、解剖学的妥当性を強制する。広範な実験により、CIGPoseはCOCO-WholeBodyで新たな最先端を達成することが示された。特に、CIGPose-xモデルは追加の学習データを用いずに67.0%のAPを達成し、UBodyデータセットを追加で用いると67.5%のAPに向上し、優れた堅牢性とデータ効率を示している。コードとモデルはhttps://github.com/53mins/CIGPoseで公開されている。
CIGPose:全身姿勢推定のための因果介入グラフニューラルネットワーク
arXiv cs.CV / 2026/3/11
Ideas & Deep AnalysisModels & Research
要点
- 本論文は、視覚的文脈における偽の相関による失敗に対処するために、構造的因果モデル(SCM)を用いた全身姿勢推定の新しいフレームワーク、CIGPoseを紹介する。
- CIGPoseには、因果介入モジュールが含まれており、予測の不確実性を通じて交絡されたキーポイント表現を検出し、解剖学的妥当性を向上させるために文脈に依存しない埋め込みに置き換える。
- このフレームワークは階層的グラフニューラルネットワークを採用し、局所的およびグローバルなレベルで人間の骨格を推論し、厳しいシーンでの堅牢性を高める。
- CIGPoseはCOCO-WholeBodyデータセットで最先端の性能を達成し、CIGPose-xモデルは追加の学習データなしで67.0%の平均精度(AP)、UBodyデータセットを用いると67.5%のAPを達成する。
- 本手法は従来法と比較して優れた堅牢性とデータ効率を示し、コードとモデルは研究コミュニティに公開されている。