MuPPet:マルチパーソン向けの2Dから3D姿勢推定

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

要点

  • MuPPetは、2Dのヒト姿勢推定から3D姿勢を復元する多人数向け手法で、個人間の相関(インタラクション)を明示的にモデリングする点が特徴です。
  • Person Encoding、Permutation Augmentation、Dynamic Multi-Person Attentionにより、表現の構造化・学習データの多様化・人数や関係性に応じた動的な注意機構を実現します。
  • 研究ではグループ相互作用データセットで、従来の単人数・既存の多人数2D-to-3D法に対して精度を大きく改善したと報告しています。
  • 閉塞(occlusion)状況に対する頑健性も向上し、多人数で社会的に整合する3D姿勢推定の重要性を示す内容です。
  • 実装コードはGitHubで公開されています。

Abstract

複数人の社会的相互作用は、本質的に、グループ内のすべての個人の間における一貫性と関係性によって成り立っており、これらの社会的ダイナミクスを理解するためには、複数人のローカライズと身体ポーズ推定が不可欠です。有望なアプローチの1つは、2Dから3Dへのポーズリフティングであり、2Dポーズ推定における大きな進展を基にすることで、豊かな空間的詳細を備えた3D人体ポーズを提供します。しかし、既存の2Dから3Dへのポーズリフティング手法は、しばしば個人間の関係性を十分に考慮していない、または変化するグループサイズに対応できないため、複数人環境での有効性が制限されています。そこで本研究では、個人間の相関を明示的にモデル化する新しい複数人向け2Dから3Dへのポーズリフティング枠組みであるMuPPetを提案します。これらの個人間の依存関係を活用するために、提案手法では、個々の表現を構造化するためのPerson Encoding、学習の多様性を高めるためのPermutation Augmentation、そして個人間の相関を適応的にモデル化するDynamic Multi-Person Attentionを導入します。グループ相互作用データセットに対する大規模な実験により、MuPPetが最先端の単人および複数人の2Dから3Dへのポーズリフティング手法を大幅に上回り、さらにオクルージョン(遮蔽)状況において頑健性を向上させることが示されました。これらの結果は、個人間の相関をモデル化することの重要性を浮き彫りにし、正確で社会的に配慮した3Dポーズ推定への道を切り開くものです。コードは以下で公開しています: https://github.com/Thomas-Markhorst/MuPPet